xDeepServe分布式推理框架

Search documents
华为携手伙伴共同发起第四届828 B2B企业节,Tokens服务助十万企业AI落
Yang Zi Wan Bao Wang· 2025-08-28 08:42
8月27日,第四届828 B2B企业节在贵阳开幕。此次企业节由华为联合中软国际、软通动力(301236) 等17家头部企业共同发起,旨在通过技术普惠、生态协作加速千行百业的企业AI应用落地。贵州省委 副书记、省长李炳军,国家数据局党组书记、局长刘烈宏,华为公司董事、质量与流程IT部总裁陶景文 致辞。 贵州作为全国国产智算资源最多、能力最强的地区之一,一直抢占数字经济战略新机、抢抓人工智能发 展风口,已经三次吸引828 B2B企业节在此落地。 华为公有云运营部部长刘杰表示,能够实现性能的进一步突破,核心还是依托华为的"大杂烩"优势。 CloudMatrix384 超节点以全新的计算架构创新,突破性能瓶颈,构筑稳固澎湃的算力根基;CANN昇腾 硬件使能,优化算子与高效通信策略,让云端的算力能够以最高效的方式被调用和组合;EMS弹性内 存存储打破AI内存墙,突破性地实现"以存强算", 彻底释放了每一颗芯片的算力;xDeepServe 分布式 推理框架则以极致分离架构Transformerless让超节点释放出更高效算力。 华为公有云运营部部长 刘杰 面向AI时代,华为云Tokens服务更好地满足了企业的智能化需求, ...
单芯片最高2400TPS,华为云Tokens服务全面接入384超节点
Guan Cha Zhe Wang· 2025-08-27 13:10
过去18个月,中国AI算力需求呈现指数级增长。数据显示,2024年初中国日均Token的消耗量为1000 亿,截至今年6月底,日均Token消耗量已突破30万亿,1年半的时间增长了300多倍,反映了我国人工智 能应用规模快速增长,也对算力基础设施的需求提出了更大的挑战。 在以往按卡时计费的基础上,今年3月,华为云正式推出了基于MaaS的Tokens服务。针对不同应用、不 同场景的性能和时延要求,还提供了在线版、进线版、离线版乃至尊享版等多种服务规格,为大模型、 Agent智能体等AI工具提供了更为灵活、便捷、低成本的先进算力。 而这一次,华为云的Tokens服务正式接入CloudMatrix384,并通过384原生的xDeepServe框架再次实现了 吞吐量的突破,从年初的1920TPS提升至2400TPS,TPOT仅为50ms。 大算力的构建不是单点突破,而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创 新,充分依托了华为的"大杂烩"能力。 首先,CloudMatrix384 超节点以全新的计算架构创新,突破性能瓶颈,构筑稳固澎湃的算力根基; CANN昇腾硬件使能,优化算子与高效通信策略,让云 ...