Workflow
从 DeepSeek 部署看,华为如何让 MOE 架构“迎来”海量“专家”?
AI前线·2025-05-22 04:30

作者 | 褚杏娟 "模型开发已经从早期的算法层优化,转向系统工程层面的深度创新。"华为技术专家说道。 如今已经从数字化时代的比特流量转向 Token 经济体系。国内 Token 日消耗量从千亿级跃升至十万亿级,DeepSeek 等头部平台日均处理 6000 亿 Token 的实践,验证了高吞吐、低时延系统的商业价值。 同时,随着模型结构从单一架构探索发展为多模态融合创新,大模型的驱动部署模式发生根本转变。传统单卡部署已无法满足大模型高吞吐、高并发的 需求,分布式集群部署成为新常态。以 ChatGPT 和 DeepSeek 为例,用户规模突破亿级的时间从 1 个月压缩至 7 天,倒逼系统处理能力实现数量级提 升。如何提供更高的吞吐能力、更低的时延成为系统,成为各基础设施厂商的必做题。 DeepSeek 专调 DeepSeek 本身已经在 infra 层做了很多优化,但在企业部署过程中,华为自己也针对 DeepSeek 的模型做了各种优化,帮助企业全面兼容和支持应 用。 大模型训推方案 预训练方面,华为首先完整复现了幻方的 DualPipe 技术(仅开源了框架,没有开源代码),但该方案存在静态显存占用较高的问题。 ...