视觉交互推理
Search documents
V-Thinker: 让模型像人一样「边画边想」
机器之心· 2025-12-25 01:20
在上述进展的基础上,我们进一步思考: 模型是否能够像人一样,在推理过程中实现「边画边思考」的视觉推理范式? 为此,我们从数据、训练范式与评 测体系等多个方面,对视觉交互推理进行了系统性探索: 我们提出 V-Thinker ,一个面向视觉交互推理的多模态推理框架。通过冷启动监督微调与强化学习相结合的训练,使模型能够在推理过程中自主生成 代码并与图像交互,从而实现「边画边思考」的视觉推理方式。 在数据层面,我们提出 Data Evolution Flywheel (数据演化飞轮),能够在多样性、质量与难度三个维度上自动合成、演化并校验视觉交互推理数 据,并进一步构建开源了数据集 V-Interaction-400K ,为视觉交互推理和图像到代码转换等任务提供了基础支撑。 在训练层面,我们设计了一套渐进式视觉训练范式,通过构建 V-Perception-40K 首先提升模型的视觉感知能力,再通过结合监督微调与强化学习的 两阶段训练,使模型掌握基于视觉交互的推理能力。 在评测方面,我们构建了 VTBench ,一个面向视觉交互推理场景的专家标注基准。实验结果表明,V-Thinker 在交互式推理与通用推理任务上均有 ...