条件记忆
Search documents
梁文锋署名DeepSeek最新论文,提出新方法突破GPU内存限制
Xin Lang Cai Jing· 2026-01-13 12:33
【文/观察者网 熊超然】1月12日晚间,中国人工智能(AI)初创公司DeepSeek创始人梁文锋与北京大学研究人员 共同署名发表了一篇技术论文,提出了一种新的模型训练技术。他们表示,该技术可以通过绕过图形处理单元 (GPU)内存限制,实现"参数的积极扩展"。 香港《南华早报》1月13日报道指出,此举凸显了DeepSeek在算力相对美国行业领先企业存在差距的情况下,持续 专注于最大限度地提高成本效率。与此同时,外界猜测该公司将在今年春节之前发布一款重要的新模型。 报道称,这篇技术含量极高的论文将受到中国和美国业内人士的广泛关注,他们希望从中了解DeepSeek所取得的 最新进展。在过去一年中,DeepSeek一直是中国AI领域创新的典范。 据报道,在这篇题为《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》(Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models)的最新论文中,介绍了一种名为"Engram"(记 忆痕迹)的"条件记忆"(conditional memory)技术。 该技术用 ...
DeepSeek V4诞生前夜?梁文锋署名新论文发布
华尔街见闻· 2026-01-13 11:01
DeepSeek计划在2月春节前后正式发布V4,而这一刻或许就是DeepSeek V4诞生的前夜。 这是一场关于AI"大脑皮层"的重构。 长期以来,Transformer架构被困在一个昂贵的悖论中:我们用着最先进的GPU算力,去让AI模型"死记硬背"那些查字典就能知道的静态知识。 DeepSeek梁文锋团队与其北大合作者在今日凌晨发布的重磅论文《Conditional Memory via Scalable Lookup》,彻底打破了这一僵局。他们提出了一种全新 的 Engram(印迹)模块 ,在传统的"条件计算"(MoE)之外,开辟了第二条稀疏化战线—— "条件记忆" 。 这不只是一次技术修补,而是一场关于模型"脑容量"的供给侧改革。它证明了: 当我们将"记忆"从"计算"中剥离,把该背的交给"字典",把该算的交给大脑, AI的推理能力将迎来反直觉的爆发式增长。 六层神经网络的"无用功" 故事的起点,源于DeepSeek团队对Transformer内部运作机制的一次"核磁共振"扫描。 在人工智能的黑盒子里,当大模型看到"Diana, Princess of Wales"(戴安娜,威尔士王妃)这个短语时,它的内 ...
DeepSeek开源大模型记忆模块,梁文锋署名新论文,下一代稀疏模型提前剧透
3 6 Ke· 2026-01-13 07:14
DeepSeek节前开始蓄力! 最新论文直接给Transformer加上"条件记忆"(Conditional Memory),补上了原生缺乏的知识查找机制。 结论中明写道:我们将条件记忆视为下一代稀疏模型不可或缺的建模原语。 还是梁文锋署名,并与北京大学王选所赵东岩、张辉帅团队合作。 论文中不仅提出了条件记忆这个全新范式,并给出了具体实现方案Engram模块,实验中让27B参数碾压同规模纯MoE模型,甚至变相提升了大模型的推 理能力: 让原来Transformer要用6层注意力才能干的简单任务压缩到1-2层搞定,省出来的资源就可以用于更难的推理任务了。 条件记忆的原理其实也非常"原始":不靠计算,回归查表,用上了传统N-gram方法。 给大模型一个巨大的词表,专门存那些固定的实体名称和两三个词的短语,不管词表多大,找信息都是O(1)速度。 关键就在于,如此前大模型时代的玩法,DeepSeek如何解决传统N-gram模型存储爆炸和多义性问题,又是让它和现代Transformer结合起来的? 让注意力干"苦力活"太浪费了 团队的核心观察是,语言建模其实包含两种性质完全不同的任务,一种是需要深度动态计算的组合推理, ...
DeepSeek发布梁文锋署名新论文
券商中国· 2026-01-13 06:25
未 经 授 权 禁 止 转 载 , 否 则 将 追 究 相 应 法 律 责 任 。 看券商中国 知天下财经 责编:杨喻程 校对: 刘星莹 百万用户都在看 "降息大门关闭!"美联储,预期突变! 25%关税!刚刚,特朗普宣布! 利好突袭!杭州"六小龙",传出大消息! 刚刚!特朗普宣布进入国家紧急状态! 利好突现!A50,异动! 违法和不良信息举报电话:0755-83514034 邮箱:bwb@stcn.com 券中社 × 券商中国 券 中 社 扫码下载券中社APP 扫码关注券商中国公众号 quanshangcn qzs.stcn.com 舞中 券中社APP 券 商 中 国 是 证 券 市 场 权 威 媒 体 《 证 券 时 报 》 旗 下 新 媒 体 , 券 商 中 国 对 该 平 台 所 刊 载 的 原 创 内 容 享 有 著 作 权 , DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条件记忆:大型语言模型稀疏性的新维 度)。 ...
梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板
Bei Ke Cai Jing· 2026-01-13 04:41
新京报贝壳财经记者浏览发现,这篇论文的核心直指当前大语言模型存在的记忆力"短板",提出了"条 件记忆"这一概念。 校对 杨利 为了实现"条件记忆",DeepSeek提出的解决方案是一个名为Engram(直译为:记忆痕迹)的模块,它 将语言建模任务拆解为"静态模式检索"与"动态组合推理"两大分支:前者负责实体、固定短语等确定性 知识的快速调取,后者则交由Transformer架构专注完成复杂逻辑运算。 当前,有不少声音猜测DeepSeek的下一代模型将于春节前发布,复现2025年春节期间盛况。这一背景 下,此篇论文或为模型的"庐山真面目"提供了方向。 新京报贝壳财经讯(记者罗亦丹)1月12日晚间,DeepSeek发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直译为基于可扩展查 找的条件记忆:大语言模型稀疏性的新维度),梁文锋再度出现在了作者名单最后。这篇论文为北京大 学和DeepSeek共同完成。 编辑 杨娟娟 论文最后表示,"我们将条件记忆视为下一代稀疏 ...
DeepSeek发布梁文锋署名新论文
证券时报· 2026-01-13 03:27
DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条件记忆:大型语言模型稀疏性的新 维度)。 END 点击关键字可查看 潜望系列深度报道丨 股事会专栏 丨 投资小红书 丨 e公司调查 丨 时报会客厅 丨 十大明星私募访谈 丨 突发!特朗普:对伊朗所有贸易伙伴征收25%关税,并考虑对伊军事打击 丨 突发!600696,或 触及退市,股价刚3连涨停 丨 "20cm"6连板!今年最牛股,停牌核查! 丨 重磅!事关电动汽车出 口,商务部最新通报→ 丨 全线爆发!AI应用概念掀涨停潮 丨 美联储突发!鲍威尔遭刑事调查! 丨 看好2026年A股表现!证券时报2025年四季度经济学家问卷调查:经济预期进一步改善 丨 马斯克 突发!旗下产品或被多国封禁,发生了什么? 证 券 时 报 新 媒 体 矩 阵 高 15 12 JJA TH 人民财讯 券商中国 e公司 数据宝 全景财经 北证 新財富 CHDD TRustway 期货回报 杂志 资讯 新财 ...
DeepSeek发布梁文锋署名新论文
Zheng Quan Shi Bao· 2026-01-13 03:02
该论文为北京大学与DeepSeek共同完成,合著作者署名中出现梁文锋。论文提出条件记忆(conditional memory),通过引入可扩展的查找记忆结构,在等参数、等算力条件下显著提升模型在知识调用、推 理、代码、数学等任务上的表现。同时,DeepSeek开源相关记忆模块Engram。 DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度)。 ...
梁文锋署名新论文,DeepSeek V4架构首曝?直击Transformer致命缺陷
3 6 Ke· 2026-01-13 01:24
刚刚 ,DeepSeek新论文发布了,梁文锋署名! 这一次,他们联手北大直接瞄准了「记忆」,是Transformer最致命的关键难题。 如今,MoE成为大模型主流架构,但本质仍是Transformer,因其缺少原生「知识查找」机制,很多检索能力被迫用大量计算去模拟。 33页论文中,团队提出了 MoE 互补的「条件记忆」稀疏轴,并通过一种全新的Engram模块去实现: 将经典哈希N-gram嵌入现代化,提供近似O(1)的确定性知识查找。 论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf 通过「稀疏分配」(Sparsity Allocation)建模,他们意外发现MoE与Engram之间,存在「U形scaling law」。 这意味着,需调整两者之间资源比例,让计算与静态记忆间找到最优权衡。 沿着这个规律,将Engram扩展到27B参数后,并在严格等参数、等FLOPs下优于MoE基线。 直白讲,MoE只解决「怎么少算」,Engram直接解决「别瞎算」。 它把该查的交给 O(1)记忆,把注意力从局部琐碎中解救出来,结果不只是更 ...
刚刚,梁文锋署名开源“记忆”模块,DeepSeek V4更细节了
程序员的那些事· 2026-01-13 00:56
就在十几个小时前,DeepSeek 发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》,与北京大 学合作完成,作者中同样有梁文锋署名。 转自:机器之心 论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf 简单总结一波 这项新研究要解决的问题 :目前大语言模型主要通过混合专家(MoE)来实现稀疏化,这被称为「条件计算」。但是,现有的 Transformer 缺少原 生的知识查找机制,只能被迫通过计算过程低效地模拟检索行为。 针对这一现状, DeepSeek 提出了条件记忆(conditional memory),从而与 MoE 的条件计算互补,并通过引入一个新模块 Engram 来实现 。 目前,模块「Engram」相关的实现已经上传到了 GitHub。 项目地址:https://github.com/deepseek-ai/Engram 这让网友们感慨:「DeepSeek ...
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
3 6 Ke· 2026-01-13 00:42
Core Insights - DeepSeek has released a new paper titled "Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models," in collaboration with Peking University, introducing a new module called Engram to enhance the efficiency of large language models [1][3]. Group 1: Research Overview - The current approach to sparsity in large language models primarily relies on Mixture of Experts (MoE) for conditional computation, but existing Transformer architectures lack a native knowledge retrieval mechanism [3][8]. - DeepSeek proposes conditional memory as a complementary dimension to MoE, introducing the Engram module to facilitate efficient knowledge retrieval with O(1) time complexity [8][9]. Group 2: Engram Module Implementation - The Engram module has been implemented and made available on GitHub, allowing for community engagement and further development [4][5]. - Engram separates static memory storage from dynamic computation processes within the Transformer architecture, enhancing overall model performance [10][12]. Group 3: Performance Metrics - Engram has shown significant improvements in various benchmarks, including a +3.4% increase in MMLU accuracy and a +4.0% increase in CMMLU accuracy, as well as notable gains in general reasoning tasks [9][28]. - The architecture allows for better long-context retrieval capabilities, with accuracy in Multi-Query NIAH increasing from 84.2 to 97.0 [9]. Group 4: Experimental Results - DeepSeek trained four models: Dense-4B (4.1 billion parameters), MoE-27B (26.7 billion), Engram-27B (26.7 billion), and Engram-40B (39.5 billion), all under the same training conditions [25][27]. - The sparse architectures (MoE-27B, Engram-27B/40B) outperformed the dense model (Dense-4B) across all benchmarks, demonstrating superior scalability [28][30]. Group 5: Memory and Computation Decoupling - Engram's deterministic retrieval mechanism allows for the decoupling of parameter storage from computational resources, enabling efficient scaling without increasing computational costs [15][17]. - The architecture supports a multi-level cache hierarchy, optimizing memory access and reducing latency [18]. Group 6: U-Shaped Scaling Law - DeepSeek identified a U-shaped scaling law for optimal allocation between MoE and Engram, suggesting that a balanced distribution of sparse parameters leads to improved performance [19][24]. - The optimal allocation ratio was found to be around 20%-25% of the sparse parameter budget for Engram, confirming the structural complementarity between the two modules [23][24].