扩散语言模型也有MoE版本了!蚂蚁&人大从头训练LLaDA-MoE,即将完全开源
机器之心·2025-09-12 11:31
机器之心报道 编辑:张倩 挑战自回归的扩散语言模型刚刚迎来了一个新里程碑:蚂蚁集团和人大联合团队用 20T 数据,从零训练出了业界首个原生 MoE 架构扩散语 言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B,但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B,而且推理速度更快。这为扩散 语言模型的技术可行性提供了关键验证。 万万没想到,做奥数题都能拿金牌的模型,却不会「倒着背诗」。 说完全不会,倒也不严谨。因为如果允许模型「深度思考」,给诗的每个字都编上号,然后倒着排一下,这诗也能背出来。然而,这与人类倒背文本的方式并不 一样 —— 人类记忆诗词时,往往不是逐字死记,而是以句子、意境、节奏为单位,而倒背时则是在脑中「反向调用」这些单元。 研究者们在 2023 年的一篇论文中就提到了这个现象,并将其命名为「Reversal Curse(反转诅咒)」。类似的表现还包括模型学习了「A is B(如巴黎是法国的首 都)」之后,却无法自然地推出「B is A(如法国的首都是哪里)」。 这个问题之所以被拎出来讨论,是因为它会在一些需要模型同时理解前后文或逆向推理的场景中影响性能。 两年过去,AI 大 ...