梁文锋署名,DeepSeek论文上新

2026.01.13 本文字数:1017,阅读时长大约2分钟 作者 |第一财经 刘晓洁 继去年底发布一篇新论文后,1月12日晚,DeepSeek又上新了一篇论文,这次聚焦的是大模型的条件记 忆模块,在结论中DeepSeek 认为,这将成为下一代稀疏大模型中不可或缺的核心建模原语。 此次发布的论文是DeepSeek与北京大学合作完成的,名称为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(《基于条件查找的条件记忆:大型语言模型稀疏性 的新维度》),作者一列同样有DeepSeek创始人梁文锋的署名。 这篇论文的核心观察是,大模型包含两种性质完全不同的任务,一种是需要深度动态计算的组合推理, 另一种则是检索静态知识。而现有的Transformer架构缺乏原生的知识查找机制,只能通过计算低效地模 拟检索过程。例如模型查找不变的知识时,得浪费算力重新推导一遍,既费时间又占资源。 为解决这一问题,DeepSeek团队引入了条件记忆作为补充的稀疏性维度,并通过Engram这一条件记忆 模块实现 ...