局部梯度匹配损失(LGM)

Search documents
大模型训练或无需“纯净数据”!北大团队新研究:随机噪声影响有限,新方法让模型更抗噪
量子位· 2025-02-27 09:37
实验结果揭示了一个反直觉现象:尽管NTP loss受到噪音的影响有些微提升,但是增加幅度远小于噪音占比。即使20%的数据被污染,模型 的下一个词预测损失仅上升约1%。 北大团队 投稿 量子位 | 公众号 QbitAI 传统的大语言模型训练需要依赖"纯净数据"——那些经过仔细筛选、符合标准语法且逻辑严密的文本。但如果这种严格的数据过滤,并不像我 们想象中那般重要呢? 这就像教孩子学语言:传统观点认为他们应该只听语法完美的标准发音。但现实情况是,孩童恰恰是在接触俚语、语法错误和背景噪音的过程 中,依然能够掌握语言能力。 来自北大的研究人员通过在训练数据中刻意添加随机乱码进行验证。他们试图测试模型在性能受损前能承受多少"坏数据"。 实验结果表明,即便面对高达20%的"垃圾数据",训练依然可以正常进行,且Next-token Prediction (NTP) loss受到的影响不足1%!他们不 仅揭示了噪声与模型性能的复杂关系,还提出了一种创新的"局部梯度匹配"方法,让模型在噪声环境中依然保持强劲表现。 是什么:随机噪音会有什么影响? 研究者利用OpenWebText数据集,训练了多个GPT-2相同架构和参数量的语言 ...