昇腾“数字化风洞”问世:让AI算力配置从经验驱动迈向建模驱动
21世纪经济报道·2025-06-11 12:05
大模型训推系统宛如一辆精密调校的赛车,即便搭载顶级引擎(高算力芯片),如果油箱(内 存)、变速箱(带宽)与路况(任务类型)不匹配,仍会陷入"龟速"困局。华为研究团队发现, 超过60%的算力浪费在硬件资源错配与系统耦合上,而传统"人拉肩扛"的优化方法在芯片特性 的"三角矛盾"(算力-带宽-容量失衡)前束手无策。 三大挑战:动态负载需求下的软硬件博弈 破局之道:"数字化风洞" 在正式开展复杂AI模型的训推之前,可以先在虚拟环境的"数字化风洞"中 "彩排"。比如研发 一个新药筛选模型时,先通过模拟不同的参数、输入和资源分配方案,预测模型在真实场景 的表现,就像电影导演用动画预演复杂镜头。这种 "先模拟后实战" 的方式,能提前发现计算 系统的瓶颈点和逻辑漏洞,并提出相应优化手段,节省大量真实训推的时间和资源。 面对昇腾芯片的异构特性(跑车式高算力 v s 货车式大容量),华为马尔科夫建模仿真团队构 建昇腾"数字化风洞",能够小时级预演万卡集群方案,通过昇腾亲和的性能加速与训推系统 极致高可用,助力大模型运行"又快又稳"。 动静态融合的大规模训练集群建模仿真方法:通过有向无环图的算子组合,灵活表达大 规模AI应用,快速 ...