ReWatch
Search documents
大模型学会拖进度条看视频了,阿里新研究让视频推理告别脑补,实现证据链思考
3 6 Ke· 2026-01-29 09:29
为什么让多模态大模型"一步一步思考"("Let's think step by step")来回答视频问题,效果有时甚至还不如让它"直接回答"? 在数学推理任务中,强化学习(RL)能通过"思考"大幅提升模型性能。但将同样的方法用于视频推理,效果却不尽如人意。 来自阿里巴巴未来生活实验室的研究团队认为,这背后是任务性质的根本差异:数学推理是纯文本空间的逻辑游戏,而视频推理需要模型在视觉内容和文 本逻辑之间反复穿梭、验证。简单地套用文本思维链,只会让模型产生更多"脑补"和幻觉。 整个数据集的构建过程包含三个阶段:分层字幕生成、高难度问答对生成、以及多智能体思维链合成,确保了数据的高质量和高难度。 授人以渔:让模型学会"如何思考"的ReWatch-R1 为了解决这一难题,研究团队提出了一个核心观点:模型"思考"的效果,取决于我们是否教会了它"如何思考"。基于此,他们推出了一整套解决方案:一 个高质量的视频推理数据集ReWatch,以及一个能像人类一样"回看"视频进行思考的SOTA模型ReWatch-R1,论文已中稿ICLR 2026。 工欲善其事,必先利其器:高质量视频推理数据集ReWatch 研究团队发现,现有训 ...