让大模型“吃一堑长一智”,南理工百度等提出模型记忆新方法
量子位·2025-12-17 09:07
ViLoMem团队 投稿 量子位 | 公众号 QbitAI 多模态推理又有新招,大模型"记不住教训"的毛病有治了。 南京理工大学联合百度等单位提出新方法ViLoMem,通过构建 视觉流+逻辑流的双流语义记忆 ,让模型像人一样把视觉陷阱和推理错误分开 存档,做到真正的"从错误中学习"。 在六个多模态基准中,ViLoMem让GPT-4.1 在MathVision上暴涨+6.48,小模型Qwen3-VL-8B在MMMU上提升 +4.38。 而且不需要任何微调,强模型积累下来的记忆还能直接迁移给小模型,起到类似"免费知识蒸馏"的效果。 整体来看,ViLoMem 做了三件关键的事: 在不改动大模型参数的前提下,ViLoMem能在多个多模态基准上稳定拉升表现,尤其是在需要精细视觉理解的数学与真实场景推理任务上, 为构建真正"会从经验中长记性"的多模态智能体提供了一条很有潜力的道路。 大模型的"金鱼记忆" 但人类并不是这样记忆的。 认知科学研究表明,人类的语义记忆天生就是多模态整合的,既会记住"这道题要用勾股定理"(逻辑规则),也会记 "这个角看着像直角其实 不是"(视觉经验)。 ViLoMem正是沿着这个方向,把视觉和逻 ...