Workflow
美团提出多模态推理新范式:RL+SFT非传统顺序组合突破传统训练瓶颈
量子位·2025-07-21 04:23

美团团队 投稿 量子位 | 公众号 QbitAI 多模态推理,也可以讲究"因材施教"? 来自美团的研究者们提出 Metis-RISE框架(RL Incentivizes and SFT Enhances) ,探索了这一方法。 他们提出了一个混合训练框架,将RL激励和SFT增强以非传统顺序结合,更有效地提升多模态大语言模型(MLLMs)的推理能力。 简单来说,就是先用强化学习(RL)放任模型大胆去探索,激发潜能,再通过监督微调(SFT)针对性补齐短板,来突破多模态推理瓶颈。 最终产生7B和72B参数的MLLM,2个模型在OpenCompass多模态推理榜单上取得了优异成绩,其中72B参数模型平均得分在整体排名中位 列第四,验证了Metis-RISE的可扩展性和有效性。 突破传统训练范式,激活模型潜在推理能力 当前多模态推理大模型训练范式面临 双重挑战 : 纯RL :一方面正确轨迹采样成功率波动大(0-1),另一方面不能"无中生有",受限于基座模型的能力上限 先SFT后RL :早期监督训练禁锢模型创造力,如同给AI"套上枷锁",后期RL探索空间受到限制 这些恰是Metis-RISE破局之处,如下图所示,与从冷启动 ...