Workflow
最新发现!每参数3.6比特,语言模型最多能记住这么多
机器之心·2025-06-04 04:41

GPT 系列模型的记忆容量约为每个参数 3.6 比特。 语言模型到底能记住多少信息?Meta、DeepMind、康奈尔大学和英伟达的一项测量结果显示: 每个 参数大 约 3.6 比特 。一旦达到这个极限,它们就会停止记忆 并开始泛化。 长期以来,记忆与泛化之间的模糊性一直困扰着对模型能力和风险的评估,即区分其输出究竟源于对训练数据的「记忆」 (对其训练数据分布的编码程度) ,还 是对潜在模式的「泛化」理解 (将理解扩展到未见过的新输入)。 这种不确定性阻碍了在模型训练、安全、可靠性和关键应用部署方面的针对性改进。 机器之心报道 编辑:+0、张倩 这就好比我们想知道一个学生考试得了高分,是因为他真的理解了知识点(泛化),能够举一反三,还是仅仅因为他把教科书上的例题和答案都背下来了(记 忆)。 基于此,研究团队提出了一种新方法,用于估计一个模型对某个数据点的「了解」程度,并利用该方法来衡量现代语言模型的容量。 研究团队从形式上将记忆分为两个组成部分: 通过消除泛化部分,可以计算出给定模型的总记忆量,从而估计出模型容量:测量结果估计, GPT 系列模型的容量约为每个参数 3.6 比特 。 研究团队训练了数百个参数量 ...