Workflow
元脑SD200超节点AI服务器
icon
Search documents
1元/百万token,8.9ms生成速度,Aengt落地“成本账”与“速度账”都要算丨ToB产业观察
Tai Mei Ti A P P· 2025-09-29 08:12
AI生成 "通过元脑HC1000超扩展AI服务器,可实现将原先每百万token超过10元钱,下降到仅1元钱的成 本。"浪潮信息首席AI战略官刘军与笔者分享了浪潮信息结合用户需求,将算力成本"打下去"的最新解 决方案。 除了成本之外,当AI从大模型进入Agent时代,甚至从AGI向着ASI迈进的过程中,实现多Agent协同的 目标,如何降低响应速度是不可避免的问题,刘军也在与笔者的交流中,分享了浪潮信息在降低通信延 迟方面的AI算力布局,他表示,通过浪潮信息元脑SD200超节点AI服务器,可将原本国内最低15ms左 右的延迟,下降到8.9ms左右。 速度决定了ASI能否"照进现实" 随着Scaling Law持续推动模型能力跃升,以DeepSeek为代表的开源模型极大的降低了创新门槛,加速 智能体产业化的到来。智能体产业化的核心三要素是能力、速度和成本。其中模型能力决定了智能体的 应用上限,交互速度决定了智能体的商业价值,token成本决定了智能体的盈利能力。 "速度,是智能体商业化应用落地的第一要义。"这是在与刘军交流过程中,他反复强调的观点。在智能 体商业化应用落地过程中,交互速度是决定其能否在真实场景中发 ...
8.9ms,推理速度新记录!1块钱百万token,浪潮信息AI服务器加速智能体产业化
量子位· 2025-09-29 04:57
克雷西 henry 发自 凹非寺 量子位 | 公众号 QbitAI 一百万Token的输出推理成本,只要一块钱了。 今年的人工智能计算大会上,浪潮信息发布了超扩展AI服务器元脑HC1000,把AI推理成本狠狠地打了下来。 与此同时,浪潮信息还推出另一杀手锏——元脑SD200超节点,也将DeepSeek-R1的Token生成时间打到了毫秒量级。 △ 浪潮信息首席AI战略官刘军 随着AI竞赛进入智能体产业化阶段,能力、速度和成本成为了决胜的核心三要素。 元脑SD200和元脑HC1000,将为多智能体协同与复杂任务推理的规模化落地,提供高速度、低成本的算力基础设施。 DeepSeek-R1推理进入10ms时代 首先来看 元脑SD200 超节点AI服务器。 特别是在速度上,元脑SD200率先将大模型端到端推理延迟控制在了10ms以内。 实测中,元脑SD200在运行DeepSeek-R1时,TPOT(每Token输出时间)仅有 8.9ms ,领先了前SOTA(15ms)近一倍,还使 DeepSeek-R1 671B的推理性能实现了最高16.3倍的 超线性扩展率 。 它可以在单机内同时运行DeepSeek-R1、Kimi ...