ReWatch数据集
Search documents
大模型学会拖进度条看视频了!阿里新研究让视频推理告别脑补,实现证据链思考 | ICLR 2026
量子位· 2026-01-29 08:27
ReWatch团队 投稿 量子位 | 公众号 QbitAI 为什么让多模态大模型"一步一步思考" ("Let's think step by step") 来回答视频问题,效果有时甚至还不如让它"直接回答"? 在数学推理任务中,强化学习 (RL) 能通过"思考"大幅提升模型性能。但将同样的方法用于视频推理,效果却不尽如人意。 来自 阿里巴巴未来生活实验室 的研究团队认为,这背后是任务性质的根本差异:数学推理是纯文本空间的逻辑游戏,而视频推理需要模型在 视觉内容和文本逻辑之间反复穿梭、验证。简单地套用文本思维链,只会让模型产生更多"脑补"和幻觉。 3. 视频接地的思维链(ReWatch-CoT): 首创多智能体ReAct框架,模拟人类在思考复杂问题时"回看、确认"的行为。通过"推理智能 体"和"观察智能体"的协作,生成一条条明确记录了"去视频哪里看" (action) 和"看到了什么" (observation) 的推理轨迹,确保思维链的 每一步都与视频内容紧密绑定。 整个数据集的构建过程包含三个阶段: 分层字幕生成、高难度问答对生成、以及多智能体思维链合成 ,确保了数据的高质量和高难度。 为了解决这一难题,研 ...