Workflow
VCCL(Venus Collective Communication Library)
icon
Search documents
集合通信库VCCL释放GPU极致算力,创智、基流、智谱、联通、北航、清华、东南重磅开源
机器之心· 2025-09-21 00:30
机器之心发布 机器之心编辑部 计算速度与系统稳定性的双重挑战,正推动 AI 基础设施向新一代集合通信技术迈进。 在人工智能迅猛发展的今天,超大规模智算集群已成为推动技术突破的核心基础设施。 海外科技巨头纷纷布局,OpenAI 与甲骨文和软银正在推进「星际之门」项目,计划配备数百万个 GPU,预计耗资超千亿美元;微软、谷歌、xAI 陆续完成十万卡 集群交付使用。 在国内,运营商也加速向 AI 基础底座供应商转型,累计投资已超百亿元,建成 4 个万卡级智能计算中心,智算规模增长超 2 倍。 超大规模智算集群需要应对诸多挑战:硬件配套投入大、运营维护费用高。更重要的是,单纯堆砌硬件并不能解决所有问题,如何设计软件系统,将成千上万个 计算单元高度组织起来才是核心挑战。在万卡甚至百万卡规模的集群中,设备故障几乎成为常态而非例外,任何一个组件的失效都可能导致整个训练任务中断, 算力利用率 和 系统稳定性 成为比纯粹算力更为关键的指标。 AI 基础设施由计算 + 通信构成,集合通信库作为智算集群的 "神经系统",其重要性日益凸显。 集合通信库是 GPU 计算芯片与高性能网络的交汇所在,是 GPU 软 件栈基座组件。如英伟达 ...