Workflow
大规模跨节点专家并行
icon
Search documents
DeepSeek首次披露:理论成本利润率545%!
证券时报· 2025-03-01 08:38
3月1日,DeepSeek在知乎上发表题为《DeepSeek-V3/R1 推理系统概览》的文章,全面揭晓V3/R1 推理系统背后的关键秘 密。 最为引人注目的是,文章首次披露了DeepSeek的理论成本和利润率等关键信息。据介绍,假定GPU租赁成本为2美元/小 时,总成本为87072美元/天;如果所有tokens全部按照DeepSeek R1的定价计算,理论上一天的总收入为562027美元/天, 成本利润率为545%。 最大程度优化推理系统,理论成本利润率高达545% 据文章介绍,DeepSeek-V3/R1推理系统的优化目标是更大的吞吐、更低的延迟。为了实现这两个目标,DeepSeek使用了 大规模跨节点专家并行(Expert Parallelism / EP)的方法,并通过一系列技术策略,最大程度地优化了大模型推理系统, 实现了惊人的性能和效率。 DeepSeek开源周收官,DeepSeek以最后一弹,再次在AI江湖激起了层层涟漪。 具体而言,在更大的吞吐的方面,大规模跨节点专家并行能够使得batch size(批尺寸)大大增加,从而提高GPU矩阵乘 法的效率,提高吞吐。 batch size在深度学习中 ...