Workflow
稀疏性分配问题
icon
Search documents
DeepSeek开源大模型记忆模块,梁文锋署名新论文,下一代稀疏模型提前剧透
3 6 Ke· 2026-01-13 07:14
DeepSeek节前开始蓄力! 最新论文直接给Transformer加上"条件记忆"(Conditional Memory),补上了原生缺乏的知识查找机制。 结论中明写道:我们将条件记忆视为下一代稀疏模型不可或缺的建模原语。 还是梁文锋署名,并与北京大学王选所赵东岩、张辉帅团队合作。 论文中不仅提出了条件记忆这个全新范式,并给出了具体实现方案Engram模块,实验中让27B参数碾压同规模纯MoE模型,甚至变相提升了大模型的推 理能力: 让原来Transformer要用6层注意力才能干的简单任务压缩到1-2层搞定,省出来的资源就可以用于更难的推理任务了。 条件记忆的原理其实也非常"原始":不靠计算,回归查表,用上了传统N-gram方法。 给大模型一个巨大的词表,专门存那些固定的实体名称和两三个词的短语,不管词表多大,找信息都是O(1)速度。 关键就在于,如此前大模型时代的玩法,DeepSeek如何解决传统N-gram模型存储爆炸和多义性问题,又是让它和现代Transformer结合起来的? 让注意力干"苦力活"太浪费了 团队的核心观察是,语言建模其实包含两种性质完全不同的任务,一种是需要深度动态计算的组合推理, ...