Workflow
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义
量子位·2025-07-11 04:00

PAPO团队 投稿 量子位 | 公众号 QbitAI 让大模型在学习推理的同时学会感知。 伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的 专注于多模态推理 的强化学习算法 PAPO (Perception-Aware Policy Optimization)。 现有的强化学习算法(如GRPO)虽然在纯文本推理中表现优异,但当应用于多模态场景时,往往无法充分利用视觉信息进行推理。 近期有许多工作专注于提升强化学习再多模态场景中的应用,但大多集中在从数据(Data,Rollout)以及奖励机制(Reward)的设计,很 少设计对于核心GRPO算法的改动。 而PAPO通过创新的 隐式感知损失设计 ,仅依赖于内部监督信号,让多模态大模型在学习推理的同时学会感知,从根本上解决了现有方法中 感知与推理脱节的问题。 PAPO的模型和数据均已开源,详细可见文末链接。 错误分析:发现感知瓶颈 PAPO的第一个重要贡献是通过系统性的错误分析发现了多模态推理中的核心问题,也就是 视觉感知的准确性 问题。 PAPO团队对使用GRPO训练的Qwen2.5-VL-3B模型在四个基准数据集上的200个错误案例进行详细 ...