Workflow
DeepSeek开源周-划重点
Seek .Seek .(US:SKLTY)2025-03-03 03:15

DeepSeek 开源周:划重点? 摘要 Q&A DeepSeek 开源周的主要内容和目的是什么? DeepSeek 开源周的主要目的是分享从 V2 到 V3 以及 R1 版本中使用的核心模块 和基础设施层面的优化代码。此次开源涵盖了多个方面,包括硬件优化、推理 成本降低、算力提升等。具体来说,第一天开源了 FlashMLA 算法,该算法通过 压缩长文本中的 KV 开始来降低推理成本;第二天涉及专家并行(EP),优化了 不同 GPU 之间的通信和计算负载均衡;第三天则是矩阵乘法运算算子,支持 FP8 精度;第四天重点在于管线并行和专家负载均衡;第五天则是文件管理系 • DeepSeek 开源 FlashMLA 算法,通过压缩长文本 KV 缓存降低推理成本,解 码内核代码基于 Hopper 架构 GPU,摩尔线程已进行国产化迁移,旨在提升 训练效率。 • 专家并行(EP)技术通过将专家分布在不同 GPU 上,利用门控机制和凹凸 凹(auto 2)机制优化通信,支持 FP8 低精度运算,提升大规模模型计算 效率,V3 版本 DMC 分配 256 个专家。 • 管线并行优化将模型层级计算分配到不同 GPU,实现计算 ...