AI看图一本正经胡说八道？「一拉一推」让模型看得全又准｜微软x清华

BiPS团队投稿量子位 | 公众号 QbitAI 随着视觉-语言模型（VLM）推理能力不断增强，一个隐蔽的问题逐渐浮现：很多错误不是推理没做好，而是"看错了"。在复杂视觉任务中，模型往往能正确识别对象、理解问题，甚至给出完整的推理链，却因捕捉了错误的视觉证据，得出自信却错误的答案。现有方法通常在推理阶段"指路"——例如生成视觉提示或调用外部工具，以临时对齐证据。这类策略虽有效，却面临明显局限：视觉线索形式受限、高度依赖具体任务，且推理开销大。更重要的是，它引出一个根本性问题：如果模型始终需要外部提醒才知道"看哪儿"，它是否真的理解了视觉世界？为此，微软亚洲研究院与清华大学提出 BiPS （Bi-directional Perceptual Shaping），从源头重塑模型的"看图方式"。 BiPS不在推理时临时提示关注区域，而是在训练阶段就教会模型：面对特定问题，哪些视觉细节必须关注，哪些可以忽略。通过系统性地对齐问题与视觉证据，BiPS促使模型内化一种核心能力—— 带着问题去看图。因此，在推理时无需任何额外提示，模型也能自动聚焦于真正决定答案的关键区域与细节。实验表明，这种 ...