信息论

Search documents
LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节
量子位· 2025-07-04 01:42
时令 发自 凹非寺 量子位 | 公众号 QbitAI 当我们读到"苹果""香蕉""西瓜"这些词,虽然颜色不同、形状不同、味道也不同,但仍会下意识地归为"水果"。 哪怕是第一次见到"火龙果"这个词,也能凭借语义线索判断它大概也是一种水果。 这种能力被称为 语义压缩 ,它让我们能够高效地组织知识、迅速地对世界进行分类。 那问题来了:大型语言模型(LLM)虽然语言能力惊人,但它们在语义压缩方面能做出和人类一样的权衡吗? 为探讨这一问题, 图灵奖得主LeCun团队 ,提出了一种全新的信息论框架。 该框架通过对比人类与LLM在语义压缩中的策略,揭示了两者在压缩效率与语义保真之间的根本差异: LLM偏向极致的统计压缩,而人类更重细节与语境。 语义压缩对比框架 要实证性地研究LLM的表征方式与人类概念结构之间的关系,需要两个关键要素: 稳健的人类概念分类基准 研究团队基于认知科学中的三项经典研究(Rosch 1973、1975和McCloskey & Glucksberg 1978),构建了一个涵盖 1049个项目、34个 语义类别 的统一基准。 这些数据不仅提供了类别归属信息,还包含人类对各项目"典型性"的评分,反映了人 ...
重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!
机器之心· 2025-07-03 04:14
Core Insights - The article discusses a groundbreaking study that reveals the reasoning dynamics of large language models (LLMs) through the lens of mutual information, identifying "thinking tokens" as critical indicators of information peaks during reasoning [3][4][24]. Group 1: Key Findings - The study uncovers the phenomenon of "information peaks" in the reasoning trajectories of LLMs, indicating that the presence of thinking tokens correlates with a significant increase in the information related to the correct answer [3][4][5]. - Researchers demonstrated that higher accumulated mutual information during reasoning leads to a tighter bound on the probability of answering correctly, thus enhancing the model's performance [6][8]. - The research indicates that reasoning models exhibit more pronounced mutual information peaks compared to non-reasoning models, suggesting that enhanced training improves the encoding of relevant information [9][10]. Group 2: Thinking Tokens - Thinking tokens, which include phrases like "Hmm," "Wait," and "Therefore," are identified as linguistic manifestations of information peaks, playing a crucial role in guiding the model's reasoning process [10][11][15]. - Experimental results show that suppressing the generation of thinking tokens significantly impacts the model's performance on mathematical reasoning datasets, confirming their importance in effective reasoning [16][25]. Group 3: Applications - Two novel methods are proposed to enhance LLM reasoning performance: Representation Recycling (RR) and Thinking Token based Test-time Scaling (TTTS), both of which leverage the insights gained from the study [18][26]. - The RR method involves re-inputting representations associated with thinking tokens for additional computation, leading to improved performance on various reasoning benchmarks [20][26]. - The TTTS method encourages the model to generate thinking tokens when additional computation resources are available, resulting in sustained performance improvements across different datasets [21][22][26].
最新发现!每参数3.6比特,语言模型最多能记住这么多
机器之心· 2025-06-04 04:41
GPT 系列模型的记忆容量约为每个参数 3.6 比特。 语言模型到底能记住多少信息?Meta、DeepMind、康奈尔大学和英伟达的一项测量结果显示: 每个 参数大 约 3.6 比特 。一旦达到这个极限,它们就会停止记忆 并开始泛化。 长期以来,记忆与泛化之间的模糊性一直困扰着对模型能力和风险的评估,即区分其输出究竟源于对训练数据的「记忆」 (对其训练数据分布的编码程度) ,还 是对潜在模式的「泛化」理解 (将理解扩展到未见过的新输入)。 这种不确定性阻碍了在模型训练、安全、可靠性和关键应用部署方面的针对性改进。 机器之心报道 编辑:+0、张倩 这就好比我们想知道一个学生考试得了高分,是因为他真的理解了知识点(泛化),能够举一反三,还是仅仅因为他把教科书上的例题和答案都背下来了(记 忆)。 基于此,研究团队提出了一种新方法,用于估计一个模型对某个数据点的「了解」程度,并利用该方法来衡量现代语言模型的容量。 研究团队从形式上将记忆分为两个组成部分: 通过消除泛化部分,可以计算出给定模型的总记忆量,从而估计出模型容量:测量结果估计, GPT 系列模型的容量约为每个参数 3.6 比特 。 研究团队训练了数百个参数量 ...
当答案变得廉价时,好问题就是新的稀缺品
3 6 Ke· 2025-05-04 00:03
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技 术、新观点、新风向。 19世纪的巴黎美术学院(Académie des Beaux-Arts)定义了何谓正统艺术。 作为主流标准的现实主义,强调的是精确性及视觉的真实性。成功取决于与这些规范的契合度。这个体 系奖励的是循规蹈矩,而非实验创新。 1830-1840年代摄影术的发明开始动摇了这一标准的根基。 一开始时,摄影似乎是画家的威胁。如果机器能比人手更精确、更快速地记录这个世界,绘画还有什么 意义呢? 编者按:当AI让答案触手可及,什么才是技术人的破局关键?本文从摄影术颠覆绘画史讲起,揭示技 术史上永恒的真理:答案贬值之日,正是问题升值之时。香农信息论启示我们,好问题才能解锁新可 能。在LLM时代,掌握提问能力就是掌握重塑认知的主动权,让人机协同真正迸发创造力。文章来自 编译。 在人人都给出标准答案的世界里脱颖而出 但随时间推移,摄影反而卸下了绘画写实的义务。画家不必再跟相机竞逐复刻现实,转而聚焦在早期相 机无法捕捉的微妙之处:光的变幻、质感、对熟悉事物的全新诠释。 我去讲人工智能时,每每当故事讲到这里稍作停顿时,观众总会露出 ...