元脑SD200

Search documents
腾讯研究院AI速递 20250812
腾讯研究院· 2025-08-11 16:01
生成式AI 一、 马斯克旗下的xAI宣布,Grok 4向全球所有用户免费开放 1. xAI宣布Grok 4向全球所有用户免费开放,但每12小时限制使用5次,达到限制后Grok完全不可用; 2. 此举被认为是为了跟进GPT-5的发布策略,但引发付费用户强烈不满,认为订阅费被"背刺"; 3. 同时Grok Imagine视频生成服务更新,新增视频分享功能、修复下载问题并增加静音控制,增强了图片审核机 制。 https://mp.weixin.qq.com/s/u4xy4O2kLTVaKJ2n0uYb3Q 二、 浪潮发布面向万亿参数的超节点AI服务器「元脑SD200」 1. 浪潮信息发布超节点AI服务器"元脑SD200",将64张卡融合成统一内存、统一编址的超节点,能同时运行 DeepSeek R1、Kimi K2等四大国产开源模型; 2. 产品采用3D Mesh开放架构,通过远端GPU虚拟映射技术实现地址空间扩增8倍,整机可实现4TB显存与64TB内 存,满足超万亿参数大模型推理需求; 3. 推理性能实现超线性扩展,64卡一同运行DeepSeek R1时性能提升达3.7倍,Kimi K2达1.7倍,专为解决Age ...
让64张卡像一张卡!浪潮信息发布新一代AI超节点,支持四大国产开源模型同时运行
量子位· 2025-08-11 07:48
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 从DeepSeek R1到Kimi K2,从Qwen到GLM,国产开源模型不仅在Hugging Face热度榜等榜单上频频霸榜,更在推理能力、长文本处理、 多模态理解等关键指标上持续刷新纪录。 性能飞跃的背后是参数规模的急剧膨胀,当前主流开源模型的参数量已经突破万亿大关,DeepSeek-R1、Kimi-K2等模型动辄需要数TB的显 存空间。 更重要的是,随着Agentic AI(代理式人工智能)成为新范式,多模型协同和复杂推理链带来 计算与通信需求的爆炸式增长 。 面对这一挑战,浪潮信息发布了面向万亿参数大模型的超节点AI服务器 "元脑SD200" 。 并且在实际测试中,其64卡整机推理性能实现了超线性扩展,是真正意义上的算力聚合突破。 64张卡,1个超节点 元脑SD200将64张卡融合成一个 统一内存、统一编址的超节点 ,把"整机域"的边界重新划定在了多主机之上。 它 以3D Mesh开放架构为骨架,底层由自研的Open Fabric Switch贯通 ,将分散在多台主机里的本土GPU拉进同一个高速互连域。 在这个统一域里,通过 远端GPU虚拟映射技 ...
浪潮信息“元脑SD200”超节点实现单机内运行超万亿参数大模型
Ke Ji Ri Bao· 2025-08-09 10:21
Core Viewpoint - Inspur Information has launched the "Yuan Nao SD200," a super-node AI server designed for trillion-parameter large models, addressing the growing computational demands of AI systems [2][3]. Group 1: Product Features - The "Yuan Nao SD200" utilizes a multi-host low-latency memory semantic communication architecture, supporting 64 local GPU chips and enabling the operation of trillion-parameter models on a single machine [2]. - The super-node integrates multiple servers and computing chips into a larger computational unit, enhancing overall efficiency, communication bandwidth, and space utilization through optimized interconnect technology and liquid cooling [2][3]. Group 2: Industry Challenges - The rapid increase in model parameters and sequence lengths necessitates intelligent computing systems with vast memory capacity, as traditional architectures struggle to meet the demands of efficient, low-power, and large-scale AI computations [3]. - The shift towards multi-model collaboration in AI requires systems capable of handling significantly increased data token generation, leading to a surge in computational requirements [3]. Group 3: Technological Innovation - The "Yuan Nao SD200" addresses the core needs for large memory space and low communication latency for trillion-parameter models through an open bus switching technology [3][4]. - The server's performance is enhanced through a software-hardware collaborative system, achieving super-linear performance improvements of 3.7 times for the DeepSeek R1 model and 1.7 times for the Kimi K2 model [4]. Group 4: Ecosystem Development - The advancement of open-source models is accelerating the transition to an intelligent era, necessitating higher demands on computational infrastructure [4]. - Inspur Information aims to foster innovation across the supply chain by utilizing high-speed connectors and cables, thereby enhancing the overall industry ecosystem and competitiveness [4].
大模型进入万亿参数时代,超节点是唯一“解”么?丨ToB产业观察
Tai Mei Ti A P P· 2025-08-08 09:57
模型发展的两极化趋势已经愈发明显,一方面,在企业级应用侧,小参数模型成为应用落地的最佳选 择;另一方面,通用大模型的参数正在不断攀升,大模型已经进入了万亿参数时代。 当前,MoE (Mixture of Experts)高效模型架构正在驱动大模型参数规模持续提升,比如采用 MoE混 合专家架构的KIMI K2开源模型,其总参数量达1.2万亿,但每个Token 推理时仅激活32B参数。 算力系统面临挑战 随着模型参数的不断增加,万亿参数模型时代已经到来,无论是KIMI K2,还是GPT、Grok,参数量都 已经发展到万亿阶段,而万亿参数的模型也对算力系统架构提出新的挑战。 首先要面临的就是庞大算力需求。万亿参数模型的训练需要极高的算力支撑。以GPT-3为例,其1750亿 参数的训练量相当于在2.5万张A100 GPU上运行90-100天。万亿参数模型的算力需求可能达到数十倍, 传统计算架构难以满足。 同时,模型并行和数据并行的分布式训练虽能分摊计算压力,但跨节点的通信开销(如梯度同步)会显 著降低算力利用率。例如,GPT-4训练的算力利用率(MFU)仅为32%-36%,主要受限于显存带宽导致 的"内存墙"问题。 ...