Workflow
多Token熵解码(MED)
icon
Search documents
扩散语言模型新发现:其计算潜力正在被浪费?
机器之心· 2025-10-30 08:52
然而,最近的一篇论文有了一些意外发现:在数学和编码任务中,任意顺序算法的性能往往不如从左到右采样,或者表现与之相似,而标准的多 token 解码会显著 降低性能。即使仅在两个 token 上进行并行解码,模型在主流基准任务上的性能也会显著下降。 使用 MDLM 进行从左到右的采样是一种适用于推理和编码的高效采样算法。如果没有 [Arriola et al., 2025] 提出的块大小( block sizes )来强制形成半自回归( AR )的从左到右结构,任意顺序会显著影响 性能。 | Parallel Tokens | GSM8K | | MATH500 | | HumanEval | | Sudoku | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | | LLaDA Dream | | | | LLaDA Dream LLaDA Dream LLaDA Dream | | | | | | 76.95 | 75.73 | 33.4 | 29.6 | 16.46 | 51.82 | 47.64 | 61.26 | | 2 | 62.3 ...