扩散语言模型(dLLM)
Search documents
里程碑时刻,首个100B扩散语言模型来了,技术报告揭秘背后细节
3 6 Ke· 2025-12-12 07:57
万万没想到,年初还是个小众方向的「扩散语言模型(dLLM)」,现在已经被扩展到千亿参数的规模了。 前段时间,我们在 HuggingFace 页面发现了两个新模型:LLaDA2.0-mini 和 LLaDA2.0-flash。它们来自蚂蚁集团与人大、浙大、西湖大学组成的联合团 队,都采用了 MoE 架构。前者总参数量为 16B,后者总参数量则高达 100B—— 在「扩散语言模型」这个领域,这是从未见过的规模。 更令人欣慰的是,模型变大了,也确实变强了:在涵盖知识、推理、编码、数学、智能体与对齐几大维度的 47 个基准测试中,LLaDA2.0-flash 平均得分 73.18,与强 AR(自回归)模型 Qwen3-30B-A3B-Instruct-2507(73.60)持平,在编码(如 HumanEval、MBPP)、智能体(BFCL)等复杂任务上优势显 著。 长期以来,自回归生成范式在大模型领域始终占据主导地位,这种从前到后依次生成下一个 token 的方法曾被寄予厚望。然而,其固有弊端也逐渐显现: 长文本生成的计算成本较高、推理速度较慢,且难以捕捉 token 之间的双向依赖关系。一旦前期生成的内容出现错误, ...
里程碑时刻!首个100B扩散语言模型来了,技术报告揭秘背后细节
机器之心· 2025-12-12 04:31
机器之心报道 编辑:杜伟、张倩 万万没想到,年初还是个小众方向的「扩散语言模型(dLLM)」,现在已经被扩展到千亿参数的规模了。 前段时间,我们在 HuggingFace 页面发现了两个新模型:LLaDA2.0-mini 和 LLaDA2.0-flash。它们 来自蚂蚁集团与人大、浙大、西湖大学组成的联合团队,都采用 了 MoE 架构。前者总参数量 为 16B,后者总参数量则高达 100B—— 在「扩散语言模型」这个领域,这是从未见过的规模。 更令人欣慰的是,模型变大了,也确实变强了:在涵盖知识、推理、编码、数学、智能体与对齐几大维度的 47 个基准测试中,LLaDA2.0-flash 平均得分 73.18, 与强 AR(自回归)模型 Qwen3-30B-A3B-Instruct-2507(73.60)持平 ,在编码(如 HumanEval、MBPP)、智能体(BFCL)等复杂任务上优势显著。 长期以来,自回归生成范式在大模型领域始终占据主导地位,这种从前到后依次生成下一个 token 的方法曾被寄予厚望。然而,其固有弊端也逐渐显现:长文本生 成的计算成本较高、推理速度较慢,且难以捕捉 token 之间的双向 ...