Workflow
分布式训练
icon
Search documents
推理、训练、数据全链条的工程挑战,谁在构建中国 AI 的底层能力?|AICon 北京
AI前线· 2025-06-16 07:37
在大模型快速演进的浪潮中,模型本身不再是唯一的挑战, 推理慢、训练不稳、数据难迁 等"系统性问题"正成为决定技术能否规模化落地的关键变量。 特别是对国产 AI 而言,算力适配、系统容错、数据合规等问题,更是绕不开的现实考验。 6 月 27~28 日, AICon 全球人工智能开发与应用大会·北京站 将带来聚焦系统层的七大关键议题,涵盖 国产芯片推理适配、开源部署实践、大规模训练容 错机制、AI 数据底座的云原生演进 等多个方向。既有深耕国产平台的实践派,也有活跃在开源社区的一线开发者,共同勾勒出国产 AI 基础设施建设的技术 全貌。 了解大会日程查看: https://aicon.infoq.cn/2025/beijing/schedule 以下是这七个演讲议题前瞻,一起提前了解他们将带来的分享内容: 昇腾 DeepSeek 大模型推理架构 by 王建辉 华为昇腾 / 架构师 在大模型加速部署进入深水区的今天,如何在国产算力平台上高效运行大模型,已成为影响应用落地的重要一环。本次分享将介绍昇腾 DeepSeek 大模 型推理架构,性能优化方案及关键优化措施,以及优化建议。 ✨ 关键词: 昇腾芯片推理优化 / ...
德科立:DCI需求旺盛,产能瓶颈有望逐渐缓解-20250522
Shanxi Securities· 2025-05-22 09:48
Investment Rating - The report adjusts the investment rating of the company to "Accumulate-A" [4][10]. Core Views - The company reported a slight increase in revenue and profit for 2024, achieving revenue of 840 million yuan, a year-on-year growth of 2.8%. The transmission product line saw a revenue decline of 3.5% to 720 million yuan, primarily due to a slowdown in domestic transmission network investments. In contrast, the data and access product line revenue surged by 70% to 100 million yuan, driven by strong demand for DCI subsystem products since the second half of 2024 [4][5]. - The first quarter of 2025 showed a slight revenue increase to 200 million yuan, but net profit decreased by 36.8% year-on-year to 20 million yuan, reflecting challenges in performance expectations [4][5]. - The DCI market in North America is experiencing strong demand, with the company holding competitive advantages in DCI optical and electrical layers. The company has completed the development of a full range of DCI equipment and is actively expanding production capacity [6][10]. Financial Data Summary - The company’s projected revenue for 2025 is 1.25 billion yuan, with net profit expected to reach 139 million yuan, reflecting a year-on-year growth of 38% [10][12]. - The gross margin is expected to improve gradually, with projections of 31.7% in 2025 and 33.3% in 2026 [12][14]. - The company’s earnings per share (EPS) is forecasted to be 1.15 yuan in 2025, increasing to 2.38 yuan by 2027 [12][14].
谁拥有最多的AI芯片?
半导体行业观察· 2025-05-04 01:27
如果您希望可以时常见面,欢迎标星收藏哦~ 人工智能的进步依赖于指数级增长的人工智能超级计算机。自2010年以来,用于训练最著名人工 智能模型的计算量每年增长4.1倍,从而实现了先进聊天机器人、图像生成和蛋白质结构预测等突 破。这种训练计算量的增长主要依赖于更大规模的人工智能超级计算机,这些计算机现在包含超 过10万个AI芯片,硬件成本达数十亿美元,并且消耗相当于一个中等城市用电量的电力。 我们通过系统地收集2019年至2025年的公开数据,汇编了一个包含全球500多台人工智能超级计 算机的数据集。我们将人工智能超级计算机定义为使用AI芯片的系统,该系统在其首次投入运营 时达到了领先人工智能超级计算机至少1%的计算性能。通过将总性能与公开的AI芯片生产和销 售估算进行比较,我们估计我们的数据集涵盖了现有AI超级计算机总容量的10-20%。 领先人工智能超级计算机的计算性能每9个月翻一番,这得益于更多和更好的AI芯片的部署(图 1)。两个关键因素推动了这一增长:芯片数量每年增加1.6倍,以及每个芯片的性能每年提高1.6 倍。虽然在2019年拥有超过1万个芯片的系统很少见,但到2024年,各公司部署的人工智能超级 ...
CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP,大模型训练最高加速3.8倍
机器之心· 2025-04-30 04:23
李武军教授为通讯作者,硕士生林昊(已毕业 ,现工作于阿里巴巴)、吴轲、李杰为共同第一作者,博士生李俊为参与作者。 训练成本高昂已经成为大模型和人工智能可持续发展的主要障碍之一。 大模型的训练往往采用多机多卡的分布式训练,大模型的分布式训练挑战巨大,即使硬件足够,不熟悉分布式训练的人大概率(实验中验证有 64%-87% 的概率)会因为超参数设置(模型怎么切分和排布、数据怎么切分和排布等)不合理而无法成功运行训练过程。 此外,不熟悉分布式训练的人在碰到大模型训练慢时容易只想到增加 GPU 硬件等 横向拓展(scale-out)方法,而忽略了分布式训练算法的 纵向拓展(scale- up)作用。 论文被 CVPR 2025 录用为 Oral(所有投稿论文的 0.7%,所有录用论文的 3.3%)。 方法简介 实际上,分布式训练算法会极大地影响硬件的算力利用率。高效能分布式训练算法具有高算力利用率。用同样的硬件算力训练同一个模型,高效能分布式训 练算法会比低效能分布式训练算法速度快,最高可能会快数倍甚至数十倍以上。 也就是说,训练同一个模型,高效能分布式训练算法会比低效能分布式训练算法成本低,最高可能会节省数倍甚至数十 ...