OpenAI未公开的o3「用图思考」技术,被小红书、西安交大尝试实现了
机器之心·2025-05-31 06:30
OpenAI 推出的 o3 推理模型,打破了传统文字思维链的边界 —— 多模态模型首次实现将图像直接融入推理过程。它不仅 "看图",还能 "用图思考",开启了视觉与 文本推理深度融合的问题求解方式。例如,面对一张物理试卷图像,o3 能自动聚焦公式区域,分析变量关系,并结合知识库推导出答案;在解析建筑图纸时,o3 可在推理过程中旋转或裁剪局部结构,判断承重设计是否合理。这种 "Thinking with Images" 的能力,使 o3 在视觉推理基准测试 V* Bench 上准确率飙升至 95.7%,刷新了多模态模型的推理上限。 然而,OpenAI 如何赋予 o3 这一能力,学界和工业界仍不得而知。为此, 小红书团队联合西安交通大学, 采用端到端强化学习,在完全不依赖监督微调(SFT) 的前提下,激发了大模型 "以图深思" 的潜能, 构建出多模态深度思考模型 DeepEyes,首次实现了与 o3 类似的用图像进行思考的能力,并已同步开源相关技术细 节,让 "用图像思考" 不再是 OpenAI 专属。 论文地址:https://arxiv.org/abs/2505.14362 项目地址:https://visu ...