JustGRPO:扩散语言模型的极简主义回归
机器之心·2026-01-29 03:08

「灵活性陷阱」: 扩散语言模型(Diffusion LLMs, dLLMs)因支持「任意顺序生成」和并行解码而备受瞩目。直觉上,打破传统自回归(AR)「从左到右」的束缚,理应 赋予模型更广阔的解空间,从而在数学、代码等复杂任务上解锁更强的推理潜力。 然而,本研究揭示了一个反直觉的现实: 当前的任意顺序生成,反而通过「规避不确定性」收窄了模型的推理边界。 基于此,本文提出了一种回归极简的方法—— JustGRPO 。实验表明,在 RL 阶段让模型自回归生成,并直接用标准的 GRPO 进行训练,即可超越当前各 类针对 dLLM 设计的 RL 算法表现。更重要的是,这种训练方式在提升推理表现的同时, 并未牺牲 dLLM 引以为傲的并行解码能力。 为什么选择多反而考不好? 论文标题:The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models 论文链接:https://huggingface.co/papers/2601.15165 项目主页:https://nzl-thu.githu ...