金鱼损失

Search documents
大模型“记性差一点”反而更聪明,金鱼损失随机剔除token,让AI不再死记硬背
3 6 Ke· 2025-09-03 23:54
大语言模型如果不加约束,很容易把训练数据原封不动地复刻出来。为解决这个问题,来自马里兰大学、图宾根大学和马普所的研究团队提出了一个新方 法——金鱼损失(Goldfish Loss)。 训练大模型时,有时让它"记性差一点",反而更聪明! 顾名思义,金鱼损失就是让模型像金鱼一样,不去死记每一个细节,而是在损失函数计算时随机剔除一小部分token。 由此,模型不再逐字记住训练集内容,但仍能学会语言规律。 实验显示,LLaMA-2在使用金鱼损失后: 用网友的精辟评论概括就是:dropout,但损失函数! 在梯度计算中随机屏蔽部分token 金鱼损失的核心理念非常简单,就是在模型训练过程中随机剔除一部分训练文本中的tokens,使其不参与损失计算。 这样一来,当模型在推理阶段遇到这些位置时,就只能"猜测",而不是逐字逐句复现训练数据的完整序列。 $\mathcal{L}_{\text{goldfish}}(\theta)=-\frac{1}{|G|}\sum_{i=1}^{L}G_{i}(x_{i})\log P(x_{i}|x_{<i};\theta)$. 此外,为了保证被剔除token的一致性,研究人员设计了一种基 ...