梁文锋署名DeepSeek新论文,“突破GPU内存限制”
【文/观察者网 熊超然】1月12日晚间,中国人工智能(AI)初创公司DeepSeek创始人梁文锋与北京大 学研究人员共同署名发表了一篇技术论文,提出了一种新的模型训练技术。他们表示,该技术可以通过 绕过图形处理单元(GPU)内存限制,实现"参数的积极扩展"。 香港《南华早报》1月13日报道指出,此举凸显了DeepSeek在算力相对美国行业领先企业存在差距的情 况下,持续专注于最大限度地提高成本效率。与此同时,外界猜测该公司将在今年春节之前发布一款重 要的新模型。 报道称,这篇技术含量极高的论文将受到中国和美国业内人士的广泛关注,他们希望从中了解 DeepSeek所取得的最新进展。在过去一年中,DeepSeek一直是中国AI领域创新的典范。 DeepSeek与北京大学研究人员合作发表论文,梁文锋在列论文截图 据报道,在这篇题为《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》(Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models)的最新论文中,介绍了 一种名为"Engram"(记忆痕迹) ...