Workflow
高通量以太网联盟主席蔡德忠:破局AI算力瓶颈,以“慢功夫”换“真落地”
Huan Qiu Wang·2025-08-25 02:14

【环球网科技报道 记者 林迪】近日,在第21届CCF全国高性能计算学术大会期间,由阿里云与中国科学院计算技术研究所联合发起的"高通量以太网 (ETH+)联盟"集中展示了在AI算力网络互联领域的重大突破,发布了涵盖协议标准、核心芯片、系统架构在内的一系列国产化成果,标志着该联盟在构 建自主可控、高性能、可扩展的智算网络基础设施方面迈出了关键一步。 算力跃迁的 " 阿喀琉斯之踵 " :网络互联瓶颈 随着AI大模型参数量的指数级增长,单一GPU已无法满足训练需求,须通过"Scale-Out"(横向扩展)和"Scale-Up"(纵向扩展)的方式,将成百上千个GPU 连接成一个超级计算集群。然而,这种并行计算模式带来了海量且密集的GPU间数据交换需求。相比传统通用计算,AI训练任务对网络带宽的要求通常高 出两个数量级。 更严峻的挑战在于,大模型训练中的数据同步具有明显的周期性。任何环节的性能短板——无论是网络链路拥塞还是设备故障——都可能成为整个集群 的"阿喀琉斯之踵",导致算力无法线性扩展,严重影响训练任务的进度与稳定性。业界普遍认为,如何构建一个能长期维持高带宽、低延迟和稳定性能的互 联体系,是确保集群算力随规模近 ...