Workflow
原生稀疏注意力)
icon
Search documents
R2还没来,但DeepSeek的秘密武器已经“剧透”了
Hu Xiu· 2025-07-31 07:58
DeepSeek R2还没来,但DeepSeek下一代模型的更新,已经提前在今年的ACL最佳论文中"剧透"了。 昨天,全球自然语言处理领域的顶级会议ACL公布了今年的最佳论文。 这个会议堪称自然语言处理领域的"世界杯",不仅是未来一两年大语言模型的风向标,而且从这里走出的顶尖技术,往往会迅速被全行业采纳。当年颠覆 了整个AI领域的Transformer架构,最初就是在这里崭露头角的。 而今年,一篇由DeepSeek和北京大学联合完成的论文斩获了"最佳论文奖":《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。 从标题就能看出,这是一篇非常硬核的技术论文,关键词密度拉满:Sparse Attention(稀疏注意力)、Hardware-Aligned(硬件对齐)、Trainable(可训 练)…… 但即便如此,它依然值得所有关注大模型未来的人认真读一遍,因为它首次把稀疏注意力从理论推理带进了完整训练流程,在保持模型性能的同时,还带 来了高达11倍的推理加速。 论文第一作者北京大学硕转博研究生袁境 ...