合成数据的「毒」与「药」,模型崩溃有何新解?
机器之心·2025-08-30 01:30
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。 引言 :在 2025 年里,围绕合成数据的研究取得了进展。一方面,学者们对模型在合成数据自循环训练下的崩溃机理有了更系统的揭示。另一方面,业界逐渐建立起 合成数据在生成、预训练、微调、后训练与评估等环节的应用流程。同时,一系列新提出的策略也为避免模型退化提供了可能路径,使合成数据在大模型发展中的作 用更加清晰。 目录 01.一年过去,关于合成数据的 「毒性」研究有何新发现? 合成数据为什么会在迭代训练中逐代污染训练集?模型在早期和晚期崩溃表现出了怎样的差异?不同类型生成模型(LLM、VAE、GMM)崩溃机制有何共性和差异?... 02 . 合成数据全面上场,在训练流程中扮演了哪些角色? 2、这种崩溃是一个退化过程,模型生成的文本逐代污染后续训练数据集,新一代模型逐步丧失对真实数据分布的认识,输出也越来越同质化。[2-1] ① 研究表明,在早期崩溃阶段,模型开始丢失分布尾部(低概率事件)的信息。 ② 在晚期崩溃阶段,模型将收敛到同原始分布几乎没有任何相似之处。 ③ 这一过程的发生,同模型设计、学习过程和所用数据质量有关。 3、经 S ...