DeepSeek V4路线图隐现?梁文锋署名重磅论文发布,聚焦大模型条件记忆模块
此次发布的论文题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(《基于条件查找的条件记 忆:大型语言模型稀疏性的新维度》),由DeepSeek与北京大学联合完成,DeepSeek创始人梁文锋亦位列作者名单。论文的核心洞察在于,大模 型实际承担着两类性质迥异的任务:一类是需深度动态计算的组合推理任务,另一类是静态知识的检索任务。而现有Transformer架构缺乏原生知 识查找机制,只能通过低效计算模拟检索过程——例如在调用固定知识时,模型仍需耗费算力重复推导,既耗时又占用资源。 为破解这一痛点,DeepSeek团队提出将条件记忆作为补充的稀疏性维度,并通过名为Engram的条件记忆模块实现这一构想,以此优化神经计算 (MoE)与静态记忆(Engram)之间的权衡关系。团队还发现了"U型缩放定律",该定律表明,在MoE专家与Engram记忆之间进行混合稀疏容量 分配,效果显著优于纯MoE基准模型。值得关注的是,尽管记忆模块的设计初衷是提升知识检索效率,但团队在通用推理、代码及数 ...