ICLR 2026 | 这道题是否需要用图思考?模型来告诉你!自适应思考模式切换助力通用视觉推理提升
机器之心·2026-02-05 04:35
本文来自复旦大学和阿里巴巴未来生活实验室,已中稿 ICLR 2026。 目前的视觉推理方法衍生出了多种思考模式,主要有和 LLM 一致的纯文本思考模式以及更加贴近图片的用图思考。两种推理模式在不同的领域各有所长, 但现有的工作聚焦于单个思考模式,无法充分利用两个模式之间的互补性。 因此,本文提出了 mixture-of-visual-thoughts,一种自适应的推理范式:目标是 将不同推理模式整合到一个模型内部并引导其进行自适应的模式选择。 为了让模型学习这样的推理范式,研究者引入了一个两阶段的学习框架 AdaVaR,通过 SFT 学习不同的推理模式,并设计了一个专门的 AdaGRPO 算法来 在强化学习设定下引导模型学习如何根据问题选择合适的推理模式。 背景:视觉推理的不同思考模式 目前对于 LVLM (large vision-language model) 的视觉推理方法已经有了大量的探索,其中主流推理范式包括以下两种: 论文标题: Mixture-of-Visual-Thoughts:Exploring Context-Adaptive Reasoning Mode Selection for Ge ...