引入几何约束后,VLM跨越了「空间推理」的认知鸿沟
机器之心·2026-01-12 06:35
现有的视觉大模型普遍存在 「 语义-几何鸿沟」(Semantic-to-Geometric Gap) ,不仅分不清东南西北,更难以处理精确的空间量化任务。例如问「 你坐在沙发 上时,餐桌在你的哪一侧? 」,VLM 常常答错。 这种「 语义‑几何鸿沟」源自于视觉大模型的语义空间无法承载高保真的几何细节,导致其在空间推理时是在「 凭空瞎猜」,这使得模型读懂了画面的语义,却停 留在「 语言的世界」中,不具备现实世界赖以运行的几何直觉,导致空间判断漏洞百出。 针对这一痛点, 北京航空航天大学 与 上海人工智能实验室 的研究团队创新提出了 几何约束智能体(Geometrically-Constrained Agent, GCA) ,开创了 「 先形 式化约束,后确定性计算」 的空间推理新范式。GCA 不依赖海量数据微调,而是通过构建形式化任务约束,强制 VLM 从「 模糊直觉」转向「 精确求解」,通过 视觉工具调用和编写计算代码进行参数化计算,为空间推理搭建了一座可验证、确定性的几何桥梁。 GCA 直接带领 Qwen、Gemini 等基座模型实现「 能力跃迁」。在公认高难度的 MMSI-Bench 测试中,GCA 将模 ...