Workflow
推理引擎
icon
Search documents
蚂蚁联手人大,发布MoE扩散模型
Hua Er Jie Jian Wen· 2025-09-12 06:02
据了解,双方在约20T数据上完成了从零训练MoE架构的扩散语言模型,验证了工业级大规模训练的扩 展性和稳定性;效果超过此前发布稠密扩散语言模型LLaDA1.0/1.5和Dream-7B,比肩等效自回归模 型,并保有数倍的推理速度优势。模型将在近期完全开源。 这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的MoE在大规模语言模型中实现了与 Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了"语言模型必须自 回归"的主流认知。 实现数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream- 7B等扩散语言模型,接近或超越了自回归模型 Qwen2.5-3B-Instruct,仅激活 1.4B 参数即可实现等效3B 稠密模型的性能。 "LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把dLLM训扩到更大规模的 路上又往前走了一步。"蓝振忠在发布现场表示。 通往AGI的路径又多了一条。 9月11日,在2025外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模 型"LLaDA- ...