Workflow
Concept Hacking
icon
Search documents
多模态大模型,真的「懂」世界吗?——揭秘 MLLM 的核心知识缺陷
机器之心· 2025-07-28 02:47
多模态大模型(MLLM)在高层次视觉理解与推理任务上展现出惊艳能力。然而,如果你仔细观察,就会发现一个的事实: 它们在一些看似简单、直观、人类幼 儿都能轻松完成的任务中,却频频「翻车」 。 比如,「一个玩具被遮住后还在吗?」、「液体倒入不同形状容器后,体积变了吗?」、「两个物体靠近会发生碰撞吗? 这是否意味着 MLLM 的先天认知结构中,缺少那些支撑早期人类学习的基础知识机制?也就是说,它们是否缺乏「core knowledge」(核心认知能力)? ICML 2025 高分论文(initial score 4443),揭示了 MLLM 的「核心认知盲区」。 来自 UC San Diego 的新研究《Core Knowledge Deficits in Multi-Modal Language Models》(发表于 ICML 2025)对这一问题进行了系统、深入的分析。 论文标题: Core Knowledge Deficits in Multi-Modal Language Models 论文链接: https://arxiv.org/pdf/2410.10855 研究发现: 目前主流 MLLM 广泛缺乏核 ...