Engram
Search documents
梁文锋署名DeepSeek最新论文,提出新方法突破GPU内存限制
Xin Lang Cai Jing· 2026-01-13 12:33
【文/观察者网 熊超然】1月12日晚间,中国人工智能(AI)初创公司DeepSeek创始人梁文锋与北京大学研究人员 共同署名发表了一篇技术论文,提出了一种新的模型训练技术。他们表示,该技术可以通过绕过图形处理单元 (GPU)内存限制,实现"参数的积极扩展"。 香港《南华早报》1月13日报道指出,此举凸显了DeepSeek在算力相对美国行业领先企业存在差距的情况下,持续 专注于最大限度地提高成本效率。与此同时,外界猜测该公司将在今年春节之前发布一款重要的新模型。 报道称,这篇技术含量极高的论文将受到中国和美国业内人士的广泛关注,他们希望从中了解DeepSeek所取得的 最新进展。在过去一年中,DeepSeek一直是中国AI领域创新的典范。 据报道,在这篇题为《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》(Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models)的最新论文中,介绍了一种名为"Engram"(记 忆痕迹)的"条件记忆"(conditional memory)技术。 该技术用 ...
梁文锋署名DeepSeek新论文,“突破GPU内存限制”
Guan Cha Zhe Wang· 2026-01-13 12:28
【文/观察者网 熊超然】1月12日晚间,中国人工智能(AI)初创公司DeepSeek创始人梁文锋与北京大 学研究人员共同署名发表了一篇技术论文,提出了一种新的模型训练技术。他们表示,该技术可以通过 绕过图形处理单元(GPU)内存限制,实现"参数的积极扩展"。 香港《南华早报》1月13日报道指出,此举凸显了DeepSeek在算力相对美国行业领先企业存在差距的情 况下,持续专注于最大限度地提高成本效率。与此同时,外界猜测该公司将在今年春节之前发布一款重 要的新模型。 报道称,这篇技术含量极高的论文将受到中国和美国业内人士的广泛关注,他们希望从中了解 DeepSeek所取得的最新进展。在过去一年中,DeepSeek一直是中国AI领域创新的典范。 DeepSeek与北京大学研究人员合作发表论文,梁文锋在列论文截图 据报道,在这篇题为《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》(Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models)的最新论文中,介绍了 一种名为"Engram"(记忆痕迹) ...
DeepSeek开源Engram,如何做到推理损失仅3%?
Tai Mei Ti A P P· 2026-01-13 08:44
上新mHC之后,DeepSeek再出大招。 1月13日凌晨,DeepSeek在GitHub开源了名为Engram的模块,并同时发布了与北京大学联合撰写的论文 Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models,阐述了一种 新的大模型稀疏化方向:条件存储(Conditional Memory)。 根据DeepSeek的研究,Engram是被设计成可微分、可训练、原生嵌入模型结构的组件,其核心是把记 忆性负载从主干计算中剥离出去,规避低效的反复计算,通过高速检索模块直接调用稳定存在、高频出 现的知识。 Engram首先会提供确定性检索。模型基于当前token和前文形成的N-gram,通过哈希映射,直接从一个 超大规模的静态嵌入表中取出对应向量,无需依赖复杂的神经计算,速度更快、路径稳定。 截图来自GitHub 该论文共14名作者,DeepSeek创始人、CEO梁文锋的署名列于最后。1月1日,DeepSeek的发布关于 mHC架构的论文,引发广泛关注,梁文锋同样署名,并列于最后。 两篇论文体 ...
DeepSeek发布梁文锋署名新论文
券商中国· 2026-01-13 06:25
未 经 授 权 禁 止 转 载 , 否 则 将 追 究 相 应 法 律 责 任 。 看券商中国 知天下财经 责编:杨喻程 校对: 刘星莹 百万用户都在看 "降息大门关闭!"美联储,预期突变! 25%关税!刚刚,特朗普宣布! 利好突袭!杭州"六小龙",传出大消息! 刚刚!特朗普宣布进入国家紧急状态! 利好突现!A50,异动! 违法和不良信息举报电话:0755-83514034 邮箱:bwb@stcn.com 券中社 × 券商中国 券 中 社 扫码下载券中社APP 扫码关注券商中国公众号 quanshangcn qzs.stcn.com 舞中 券中社APP 券 商 中 国 是 证 券 市 场 权 威 媒 体 《 证 券 时 报 》 旗 下 新 媒 体 , 券 商 中 国 对 该 平 台 所 刊 载 的 原 创 内 容 享 有 著 作 权 , DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条件记忆:大型语言模型稀疏性的新维 度)。 ...
DeepSeek V4路线图隐现?梁文锋署名重磅论文发布,聚焦大模型条件记忆模块
Jin Rong Jie· 2026-01-13 04:38
此次发布的论文题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(《基于条件查找的条件记 忆:大型语言模型稀疏性的新维度》),由DeepSeek与北京大学联合完成,DeepSeek创始人梁文锋亦位列作者名单。论文的核心洞察在于,大模 型实际承担着两类性质迥异的任务:一类是需深度动态计算的组合推理任务,另一类是静态知识的检索任务。而现有Transformer架构缺乏原生知 识查找机制,只能通过低效计算模拟检索过程——例如在调用固定知识时,模型仍需耗费算力重复推导,既耗时又占用资源。 为破解这一痛点,DeepSeek团队提出将条件记忆作为补充的稀疏性维度,并通过名为Engram的条件记忆模块实现这一构想,以此优化神经计算 (MoE)与静态记忆(Engram)之间的权衡关系。团队还发现了"U型缩放定律",该定律表明,在MoE专家与Engram记忆之间进行混合稀疏容量 分配,效果显著优于纯MoE基准模型。值得关注的是,尽管记忆模块的设计初衷是提升知识检索效率,但团队在通用推理、代码及数 ...
DeepSeek发布梁文锋署名新论文
新华网财经· 2026-01-13 03:52
DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》 (基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度)。 该论文为北京大学与DeepSeek共同完成,合著作者署名中出现梁文锋。论文提出条件记忆(conditional memory),通过引入可扩展的 查找记忆结构,在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现。同时,DeepSeek开源相关记忆模 块Engram。 来源:财联社 关注" 新华网财经 "视频号 更多财经资讯等你来看 闫学晶,又一代言被终止 卖爆了!山姆499元羽绒服,多地门店已断货 往期推荐 ...
DeepSeek发布梁文锋署名新论文
Zheng Quan Shi Bao· 2026-01-13 03:02
该论文为北京大学与DeepSeek共同完成,合著作者署名中出现梁文锋。论文提出条件记忆(conditional memory),通过引入可扩展的查找记忆结构,在等参数、等算力条件下显著提升模型在知识调用、推 理、代码、数学等任务上的表现。同时,DeepSeek开源相关记忆模块Engram。 DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度)。 ...
王兴、张一鸣、梁文锋有一个共同特征
Sou Hu Cai Jing· 2026-01-13 02:48
Group 1 - DeepSeek has launched a new open-source architecture module called Engram, which is speculated to be the core technology for its next-generation model V4 [2] - The founder Liang Wenfeng maintains a low-profile approach, focusing on product and technology rather than public appearances [2] - Liang Wenfeng is compared to other successful tech entrepreneurs like Wang Xing and Zhang Yiming, who also exhibit a humble demeanor despite their achievements [2][4] Group 2 - Wang Xing, the leader of Meituan, does not have an independent office and prefers to work alongside employees, reflecting a down-to-earth attitude [4] - Zhang Yiming, despite being based in Singapore, remains engaged with AI research and maintains a student-like curiosity towards technology [6] - The article highlights the common trait among these young entrepreneurs of staying grounded and practical in their respective fields, showing resilience against competition [6]
梁文锋署名新论文,DeepSeek V4架构首曝?直击Transformer致命缺陷
3 6 Ke· 2026-01-13 01:24
刚刚 ,DeepSeek新论文发布了,梁文锋署名! 这一次,他们联手北大直接瞄准了「记忆」,是Transformer最致命的关键难题。 如今,MoE成为大模型主流架构,但本质仍是Transformer,因其缺少原生「知识查找」机制,很多检索能力被迫用大量计算去模拟。 33页论文中,团队提出了 MoE 互补的「条件记忆」稀疏轴,并通过一种全新的Engram模块去实现: 将经典哈希N-gram嵌入现代化,提供近似O(1)的确定性知识查找。 论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf 通过「稀疏分配」(Sparsity Allocation)建模,他们意外发现MoE与Engram之间,存在「U形scaling law」。 这意味着,需调整两者之间资源比例,让计算与静态记忆间找到最优权衡。 沿着这个规律,将Engram扩展到27B参数后,并在严格等参数、等FLOPs下优于MoE基线。 直白讲,MoE只解决「怎么少算」,Engram直接解决「别瞎算」。 它把该查的交给 O(1)记忆,把注意力从局部琐碎中解救出来,结果不只是更 ...
DeepSeek发布梁文锋署名新论文
财联社· 2026-01-13 01:15
DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的 条件记忆:大型语言模型稀疏性的新维度)。 该论文为北京大学与DeepSeek共同完成,合著作者署名中出现梁文锋。论文提出条件记忆(conditional memory),通过引入可扩展的查找记忆结 构,在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现。同时,DeepSeek开源相关记忆模块Engram。 ...