让模型自己找关键帧、视觉线索,小红书Video-Thinker破解视频推理困局
机器之心·2026-01-02 03:12

随着多模态大语言模型(MLLM)的飞速发展,"Thinking with Images" 范式已在图像理解和推理任务上取得了革命性突破 —— 模型不再是被动接收视觉信息,而 是学会了主动定位与思考。 然而,当面对包含复杂时序依赖与动态叙事的视频推理任务时,这一能力尚未得到有效延伸。现有的视频推理方法往往受限于对外部工具的依赖或预设的提示词 策略,难以让模型内生出对时间序列的自主导航与深度理解能力,导致模型在处理长视频或复杂逻辑时显得捉襟见肘。 为攻克这一难题,来自小红书的研究团队提出了 Video-Thinker:一种全新的 "Thinking with Videos" 范式,旨在通过强化学习激发 MLLM 在视频推理中的内生智 能。 与传统方法不同, Video-Thinker 不依赖构建和调用外部工具,而是将 "时序定位(Grounding)" 与 "视觉描述(Captioning)" 这两种核心能力内化在模型的思 维链(CoT)中,使其能在推理过程中自主寻找关键帧并提取视觉线索。 团队精心构建了包含 10K 高质量样本的 Video-Thinker-10K 数据集,并采用 "监督微调 + 强化学习" 的 ...