Workflow
从掩码生成到「再掩码」训练:RemeDi让扩散语言模型学会自我纠正与反思
机器之心·2025-10-16 02:20

近期,扩散语言模型备受瞩目,提供了一种不同于自回归模型的文本生成解决方案。为使模型能够在生成过程中持续修正与优化中间结果, 西湖大学 MAPLE 实 验室齐国君教授团队成功训练了 具有「再掩码」能力的扩散语言模型( Rem asking- e nabled Di ffusion Language Model, RemeDi 9B)。在扩散去噪的多步过程 中,通过进行再掩码 SFT 和 RL 训练,为每个 token 输出一个去掩码置信度,RemeDi 能够从序列中已经生成的内容中识别无法确定的位置进行 再掩码(remask) ,从而修正错误内容并提升文本质量,在各方面都超越了现有的扩散语言模型。该模型还具有 可变长生成(variable-length generation) 能力,打破了现有中大规 模扩散语言模型仅支持定长生成的限制,提高了模式能力的灵活性。 背景 扩散语言模型已成为自回归语言模型的有力替代方案。这一类方法首先定义了一个将文本逐步破坏为噪声的前向过程,然后让模型学习从噪声中恢复出干净文本 的逆向过程。在这一类方法中,当前最主流的是基于掩码的扩散语言模型。该方案要求模型在训练中学习恢复被掩码的 ...