大模型被确诊「视觉文盲」!多校联合提出MILO,为它植入空间想象力
量子位·2025-12-04 09:55

当前大多数方法采用 "语言描述式调优" ,即通过文本符号让模型学习空间概念,却 从未真正"看见" 这些概念在视觉上的表现,导致模型出 现 "视觉文盲" 现象——即无法在生成回答时关注到正确的视觉区域。 MILO团队 投稿 量子位 | 公众号 QbitAI 大模型总是无法理解空间,就像我们难以想象四维世界。 空间推理是人类理解三维世界结构的核心认知能力 ,也是多模态大语言模型 (MLLMs) 在实际应用中面临的关键挑战之一。 如图,基线模型在回答关于"木椅"的问题时,其视觉注意力并未集中在目标区域,而是分散在无关区域。这反映出当前MLLMs在空间语义与 视觉感知之间 缺乏跨模态对齐 ,无法像人类那样通过心理想象来支撑空间推理。 MILO:为模型植入"空间想象力" 为解决上述问题,由多高校、机构组成的研究团队提出了 MILO ( M plicit spat I a L w O rld modeling) ,一种隐式空间世界建模范 式,通过引入视觉生成反馈,将符号推理与感知经验隐式地结合起来。 语言调优阶段: 在视觉生成调优之后,继续使用空间指令数据对模型进行语言层面的微调。 通过这种方式,MILO使MLLMs能够 ...