Workflow
梁文锋署名DeepSeek新论文:公开V3大模型降本方法
量子位·2025-05-15 08:37

金磊 不圆 发自 凹非寺 量子位 | 公众号 QbitAI 梁文锋 亲自参与的 DeepSeek最新论文 ,来了! 这一次,团队把DeepSeek-V3在训练和推理过程中,如何解决 "硬件瓶颈" 的方法公布了出来。 具体而言,DeepSeek-V3之所以可以只用2048块H800,就能达到超大规模集群(如数万块GPU)相当的训练效果,核心在于 四项创新技术 内存优化 多头潜在注意力(MLA) 那么这四项优化具体又是如何起到作用的,我们继续往下看。 软硬件协同的优化设计 在训练大模型这条路上,可以说一直有"三座大山"在占道。 首先就是 内存不够用 。 现在的大语言模型(比如GPT、Llama)变得越来越庞大,需要的存储空间激增。特别是它们使用的"注意力机制"会产生大量临时数据(KV Cache),占用大量显卡内存。 : 计算优化 混合专家模型(MoE)与FP8低精度训练 通信优化 多层网络拓扑与低延迟设计 推理加速 多token预测(MTP) 但高性能显存的容量增长太慢了,每年才增加不到50%,远远跟不上需求。 其次是 计算效率低 。 训练超大规模模型需要海量计算资源,传统 "稠密模型"(如 Llama-3)每 ...