递增步长调度器
Search documents
用更一致的轨迹、更少的解码步数「驯服」掩码扩散语言模型,扩散语言模型的推理性能和效率大幅提升
机器之心· 2025-11-05 04:15
扩散大语言模型得到了突飞猛进的发展,早在 25 年 2 月 Inception Labs 推出 Mercury—— 第一个商业级扩散 大型语言模型,同期人民大学发布第一个开源 8B 扩散大语言模型 LLaDA,5 月份 Gemini Diffusion 也接踵 而至。种种迹象表明,扩散大语言模型很可能是下一代大语言模型基础范式的有力竞争者。但是针对于扩 散大语言模型的解码策略和强化学习算法仍然是欠探索的。 近期,复旦大学、上海人工智能实验室、上海交通大学联合研究团队发布最新论文《Taming Masked Diffusion Language Models via Consistency Trajectory Reinforcement Learning with Fewer Decoding Step》。 他们提出了一套对于掩码扩散大语言模型(Masked Diffusion Large Language Model,MDLM)的 高效解码 策略 + 强化学习训练组合 ,显著提升了掩码扩散大语言模型的 推理性能与效率 ,为扩散大语言模型的发展 开辟了新路径。 代码仓库:https://github.com/ ...