梁文锋署名DeepSeek最新论文,提出新方法突破GPU内存限制

【文/观察者网 熊超然】1月12日晚间,中国人工智能(AI)初创公司DeepSeek创始人梁文锋与北京大学研究人员 共同署名发表了一篇技术论文,提出了一种新的模型训练技术。他们表示,该技术可以通过绕过图形处理单元 (GPU)内存限制,实现"参数的积极扩展"。 香港《南华早报》1月13日报道指出,此举凸显了DeepSeek在算力相对美国行业领先企业存在差距的情况下,持续 专注于最大限度地提高成本效率。与此同时,外界猜测该公司将在今年春节之前发布一款重要的新模型。 报道称,这篇技术含量极高的论文将受到中国和美国业内人士的广泛关注,他们希望从中了解DeepSeek所取得的 最新进展。在过去一年中,DeepSeek一直是中国AI领域创新的典范。 据报道,在这篇题为《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》(Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models)的最新论文中,介绍了一种名为"Engram"(记 忆痕迹)的"条件记忆"(conditional memory)技术。 该技术用 ...