单芯片最高2400TPS,华为云Tokens服务全面接入384超节点
Guan Cha Zhe Wang·2025-08-27 13:10
过去18个月,中国AI算力需求呈现指数级增长。数据显示,2024年初中国日均Token的消耗量为1000 亿,截至今年6月底,日均Token消耗量已突破30万亿,1年半的时间增长了300多倍,反映了我国人工智 能应用规模快速增长,也对算力基础设施的需求提出了更大的挑战。 在以往按卡时计费的基础上,今年3月,华为云正式推出了基于MaaS的Tokens服务。针对不同应用、不 同场景的性能和时延要求,还提供了在线版、进线版、离线版乃至尊享版等多种服务规格,为大模型、 Agent智能体等AI工具提供了更为灵活、便捷、低成本的先进算力。 而这一次,华为云的Tokens服务正式接入CloudMatrix384,并通过384原生的xDeepServe框架再次实现了 吞吐量的突破,从年初的1920TPS提升至2400TPS,TPOT仅为50ms。 大算力的构建不是单点突破,而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创 新,充分依托了华为的"大杂烩"能力。 首先,CloudMatrix384 超节点以全新的计算架构创新,突破性能瓶颈,构筑稳固澎湃的算力根基; CANN昇腾硬件使能,优化算子与高效通信策略,让云 ...