Workflow
LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节
量子位·2025-07-04 01:42

时令 发自 凹非寺 量子位 | 公众号 QbitAI 当我们读到"苹果""香蕉""西瓜"这些词,虽然颜色不同、形状不同、味道也不同,但仍会下意识地归为"水果"。 哪怕是第一次见到"火龙果"这个词,也能凭借语义线索判断它大概也是一种水果。 这种能力被称为 语义压缩 ,它让我们能够高效地组织知识、迅速地对世界进行分类。 那问题来了:大型语言模型(LLM)虽然语言能力惊人,但它们在语义压缩方面能做出和人类一样的权衡吗? 为探讨这一问题, 图灵奖得主LeCun团队 ,提出了一种全新的信息论框架。 该框架通过对比人类与LLM在语义压缩中的策略,揭示了两者在压缩效率与语义保真之间的根本差异: LLM偏向极致的统计压缩,而人类更重细节与语境。 语义压缩对比框架 要实证性地研究LLM的表征方式与人类概念结构之间的关系,需要两个关键要素: 稳健的人类概念分类基准 研究团队基于认知科学中的三项经典研究(Rosch 1973、1975和McCloskey & Glucksberg 1978),构建了一个涵盖 1049个项目、34个 语义类别 的统一基准。 这些数据不仅提供了类别归属信息,还包含人类对各项目"典型性"的评分,反映了人 ...