Workflow
Zebra-CoT:开创性视觉思维链数据集问世,多模态推理准确率提升13%
具身智能之心·2025-07-24 09:53

点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Ang Li等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 背景 人类在解决复杂问题时,常借助图表、草图等视觉辅助工具。训练多模态模型实现类似能力——即视觉思 维链(visual CoT),面临两大挑战:一方面,现有视觉CoT性能欠佳,阻碍了强化学习的应用;另一方 面,缺乏高质量的视觉CoT训练数据。 当前,尽管前沿多模态模型在视觉CoT方面取得一定进展,主要通过代理管道利用外部工具实现视觉编 程,但具备 interleaved 文本和图像生成能力的模型,要么无法生成有用的推理视觉辅助工具,要么未在推 理过程中进行固有的多模态生成训练,导致推理的强化学习方法难以实施。同时,专门模型虽在特定场景 (如合成迷宫)展示了视觉CoT,但通用高质量视觉CoT的基础模型仍缺失,主要原因是缺乏大规模、多样 化的 interleaved 文本-图像推理训练数据集。 1. 提出Zebra-CoT,一 ...