Workflow
token危机
icon
Search documents
token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升
机器之心· 2025-08-10 04:31
机器之心报道 编辑:杜伟 扩散语言模型(DLMs)是超强的数据学习者。 token 危机终于要不存在了吗? 近日,新加坡国立大学 AI 研究者 Jinjie Ni 及其团队向着解决 token 危机迈出了关键一步。 在当前大语言模型(LLM)的持续发展中,面临的挑战之一是可用的高质量训练文本数据(tokens)即将枯竭,并成为限制模型性能持续提升的关键瓶颈。另外, 新增的高质量数据来源少,获取成本高,去重后更加稀缺。因此,当模型规模继续扩大,所需数据量按 Scaling Laws 成倍增加时,就出现了「优质 token 不够训 练」的危机。 针对这一现象, 该团队从零开始预训练了扩散语言模型(DLMs)与自回归(AR)模型,其中规模最高至 80 亿参数、4800 亿 tokens、480 个 epoch 。 研究有以下三项重要发现: 此外,团队还剖析了并行研究《Diffusion Beats Autoregressive in Data-Constrained Settings》中的严重方法论缺陷 —— 以共同提升开放评审的标准! Jinjie Ni 在社媒 X 上详细介绍了其团队的研究结论、研究方法,接下来 ...