AI看图一本正经胡说八道?「一拉一推」让模型看得全又准|微软x清华
BiPS团队 投稿 量子位 | 公众号 QbitAI 随着视觉-语言模型 (VLM) 推理能力不断增强,一个隐蔽的问题逐渐浮现: 很多错误不是推理没做好,而是"看错了"。 在复杂视觉任务中,模型往往能正确识别对象、理解问题,甚至给出完整的推理链,却因捕捉了错误的视觉证据,得出自信却错误的答案。 现有方法通常在推理阶段"指路"——例如生成视觉提示或调用外部工具,以临时对齐证据。这类策略虽有效,却面临明显局限:视觉线索形式 受限、高度依赖具体任务,且推理开销大。更重要的是,它引出一个根本性问题: 如果模型始终需要外部提醒才知道"看哪儿",它是否真的理解了视觉世界? 为此,微软亚洲研究院与清华大学提出 BiPS (Bi-directional Perceptual Shaping) ,从源头重塑模型的"看图方式"。 BiPS不在推理时临时提示关注区域,而是在训练阶段就教会模型: 面对特定问题,哪些视觉细节必须关注,哪些可以忽略 。通过系统性地对 齐问题与视觉证据,BiPS促使模型内化一种核心能力—— 带着问题去看图 。因此,在推理时无需任何额外提示,模型也能自动聚焦于真正决 定答案的关键区域与细节。 实验表明,这种 ...