GThinker

Search documents
超越O4-mini,多模态大模型终于学会回头「看」:中科院自动化所提出GThinker模型
机器之心· 2025-07-19 03:13
GThinker 的核心在于其创新的 「线索引导式反思(Cue-Guided Rethinking)」 模式,它赋予了模型在推理过程中主动校 验、修正视觉理解的能力。 通过精心设计的两阶段训练流程,GThinker 在极具挑战性的 M³CoT 综合推理基准上取得了 超越了最新的 O4-mini 模型 ,并 在多个数学及知识推理榜单上展现出 SOTA 性能,证明了该方法的有效性和泛化能力。目前,论文、数据及模型均已开源。 尽管多模态大模型在数学、科学等结构化任务中取得了长足进步,但在需要灵活解读视觉信息的通用场景下,其性能提升瓶 颈依然显著。现有模型普遍依赖基于知识的思维模式,却缺乏对视觉线索的深度校验与再思考能力,导致在复杂场景下频繁 出错。 为解决这一难题, 来自中科院自动化研究所紫东太初大模型研究中心的研究者 提出 GThinker,一个旨在实现通用多模态推 理的新型多模态大模型。 慢思考的瓶颈: 当模型在通用场景「视而不见」 论文链接: https://arxiv.org/abs/2506.01078 项目地址: https://github.com/jefferyZhan/GThinker 开源仓库: ...