梁文锋署名新论文,DeepSeek V4架构首曝?直击Transformer致命缺陷
刚刚 ,DeepSeek新论文发布了,梁文锋署名! 这一次,他们联手北大直接瞄准了「记忆」,是Transformer最致命的关键难题。 如今,MoE成为大模型主流架构,但本质仍是Transformer,因其缺少原生「知识查找」机制,很多检索能力被迫用大量计算去模拟。 33页论文中,团队提出了 MoE 互补的「条件记忆」稀疏轴,并通过一种全新的Engram模块去实现: 将经典哈希N-gram嵌入现代化,提供近似O(1)的确定性知识查找。 论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf 通过「稀疏分配」(Sparsity Allocation)建模,他们意外发现MoE与Engram之间,存在「U形scaling law」。 这意味着,需调整两者之间资源比例,让计算与静态记忆间找到最优权衡。 沿着这个规律,将Engram扩展到27B参数后,并在严格等参数、等FLOPs下优于MoE基线。 直白讲,MoE只解决「怎么少算」,Engram直接解决「别瞎算」。 它把该查的交给 O(1)记忆,把注意力从局部琐碎中解救出来,结果不只是更 ...