概念干预

Search documents
230个大模型在婴幼儿认知题上集体翻车!揭秘多模态大模型的核心知识缺陷
量子位· 2025-10-10 01:03
CoreCognition团队 投稿 量子位 | 公众号 QbitAI 一篇被Yann LeCun转发的ICML 2025研究给了 多模态大模型 当头一棒—— 大部分AI在复杂任务上表现很好,但在人类从小就会的 基础认知能力 上却很拉垮。 研究者建了测评题库 CoreCognition ,覆盖在人类婴幼儿阶段即出现的12种核心认知能力(如客体永恒、视角采择、直觉物理、知觉恒常 等),用来对模型进行系统性测试。 在CoreCognition基准的1503道"经典发展心理学测验"上,230个主流模型系统暴露出对世界常识的"核心知识盲区"。 在归一化准确率对比中,多模态大模型在基础核心认知能力上普遍落后,差距往往达到两位数,即便规模更大也难以弥补。 这是否意味着MLLM(多模态大模型)的先天认知结构中,缺少那些支撑早期人类学习的基础知识机制? 也就是说,它们是否缺乏"core knowledge"(核心认知能力)? 构建CoreCognition Benchmark 来自加州大学圣地亚哥分校、约翰霍普金斯大学、埃默里大学、北卡罗来纳大学教堂山分校、斯坦福大学、卡内基梅隆大学等机构的研究人 员,花费一年时间构造并 开 ...