Workflow
视觉神经增强
icon
Search documents
紫东太初开源视觉神经增强方法,即插即用终结多模态幻觉 | ACL 2025
量子位· 2025-06-27 10:57
VHR团队 投稿 量子位 | 公众号 QbitAI 通过"视觉神经增强"机制,直接放大模型中的视觉关键注意力头输出,显著降低模型的幻觉现象。 中科院自动化所联合新加坡国立大学、东南大学等团队提出大模型幻觉的一种高效的解决方案VHR。 此前的主流方法主要通过对齐训练或输出层分布修正来缓解LVLMs的幻觉问题,但这些方法仅作用于模型的最终输出阶段, 未能深入干预其 内部表征和生成机制 ,因此难以实现高效且精准的幻觉抑制。 大型视觉语言模型(LVLMs)能够结合视觉和语言信息生成流畅的文本回答,但其输出常因过度依赖语言先验知识而非图像真实内容,导致 事实性错误。 在图1中,通过对照实验揭示语言先验与幻觉现象之间的关联。当给定图像并提示模型「请详细描述该图像」时,模型生成的描述中错误地包 含「椅子」和「杯子」这类图像中未出现的实体,呈现出典型的幻觉表现。 为了验证这种幻觉是否源于语言偏好,移除原始图像,重新提示模型根据此前生成的正确描述「图中有一张木桌,桌上有一个花瓶」进行补 全。结果显示,模型补全的内容与之前的幻觉部分显著重叠,这表明模型并非基于视觉依据进行推理,而是系统性地依赖语言共现模式来生成 内容。 这一现象 ...