刚刚,梁文锋署名开源“记忆”模块,DeepSeek V4更细节了
程序员的那些事·2026-01-13 00:56

就在十几个小时前,DeepSeek 发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》,与北京大 学合作完成,作者中同样有梁文锋署名。 转自:机器之心 论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf 简单总结一波 这项新研究要解决的问题 :目前大语言模型主要通过混合专家(MoE)来实现稀疏化,这被称为「条件计算」。但是,现有的 Transformer 缺少原 生的知识查找机制,只能被迫通过计算过程低效地模拟检索行为。 针对这一现状, DeepSeek 提出了条件记忆(conditional memory),从而与 MoE 的条件计算互补,并通过引入一个新模块 Engram 来实现 。 目前,模块「Engram」相关的实现已经上传到了 GitHub。 项目地址:https://github.com/deepseek-ai/Engram 这让网友们感慨:「DeepSeek ...