大模型训练

Search documents
广州南沙全力构建人工智能产业新高地
Zhong Guo Zheng Quan Bao· 2025-05-28 20:35
5月26日,"湾区人工智能产业创新联盟"在广州市南沙区正式成立。记者日前在南沙实地调研了解到, 当前南沙正在全力构建粤港澳大湾区乃至全球人工智能产业新高地,一大批人工智能企业集聚发展,推 动前沿技术与实体经济融合发展,人工智能产业呈现出蓬勃发展的势头。 ● 本报记者 武卫红 打造产业新高地 据介绍,创新联盟是由香港科技大学(广州)与华为联合港澳及国际知名机构共同发起,汇聚粤港澳大 湾区"产学研用金"多方力量,以"立足湾区、协同港澳、面向世界"为宗旨,旨在整合国际、港澳及内地 科研机构的技术资源,赋能南沙,辐射广州、广东乃至全国,推动南沙成为粤港澳大湾区人工智能创新 引领地、全国AI+产业发展风向标、世界人工智能人才集聚区。 以创新联盟成立为契机,南沙将全方位升级人工智能产业创新发展生态。创新联盟将聚焦三大核心任 务,全面推动南沙人工智能产业升级。在技术创新方面,创新联盟将重点在大模型训练、具身智能等关 键领域寻求突破,强化技术创新策源能力;在产业集聚方面,创新联盟将推动人工智能上下游企业集聚 发展,形成千亿级产业集群;在生态构建方面,创新联盟将推动建设公共算力平台、开放数据集与应用 场景库,构建全链条产业服务 ...
广东:对在游戏科技领域取得显著突破的优质项目,给予最高500万元的一次性扶持奖励
news flash· 2025-05-22 06:47
广东出台《关于推动广东网络游戏产业高质量发展的若干政策措施》。鼓励企业围绕游戏领域"卡脖 子"技术开展研发,支持人工智能等前沿科技在游戏研发中的运用,支持游戏先进技术向其他领域转化 应用。重点对虚拟引擎研发、游戏大模型训练、算力效率提升、先进技术转化、数据安全保障等领域进 行支持。鼓励企业与高校、科研机构建立实验室开展联合攻关。省级统筹资金,经公开评选公示,对在 游戏科技领域取得显著突破的优质项目,给予最高500万元的一次性扶持奖励。 ...
全新GPU高速互联设计,为大模型训练降本增效!北大/阶跃/曦智提出新一代高带宽域架构
量子位· 2025-05-19 04:37
InfiniteHBD团队 投稿 量子位 | 公众号 QbitAI 随着大模型的参数规模不断扩大,分布式训练已成为人工智能发展的中心技术路径。 如此一来, 高带宽域的设计对提升大模型训练效率至关重要 。 然而, 现有的 HBD 架构在可扩展性、成本和容错能力等方面存在根本性限制 : 以交换机为中心的HBD (如NVIDIA NVL-72) 成本高昂、不易扩展规模;以GPU为中心的HBD (如 Google TPUv3和Tesla Dojo) 存在 严重的故障传播问题;TPUv4等交换机-GPU混合HBD采用折中方案,但在成本和容错方面仍然不甚理想。 为解决上述问题, 北京大 学、阶跃星辰和曦智科技的研究团队提出了 InfiniteHBD ,这是 一种以光交换模组为中心的高带宽域架构 。 InfiniteHBD 通过将低成本光交换 ( OCS , Optical Circuit Switching ) 能力嵌入每个光电转换模组,实现了数据中心规模的低成本可扩 展性和节点级故障隔离能力。 InfiniteHBD 的单位成本仅为 NVL-72 的 31% , GPU 浪费率接近零 (比 NVL-72 和 TPUv4 ...
提升大模型通信性能30% DeepSeek致谢腾讯大模型网络提速技术方案贡献
Shen Zhen Shang Bao· 2025-05-11 22:32
【深圳商报讯】(记者陈姝)记者日前获悉,腾讯技术团队针对DeepSeek开源的DeepEP通信框架进行 深度优化,使其在多种网络环境下均实现显著性能提升。经测试,优化后的通信框架性能在RoCE网络 环境提升100%,在IB网络环境提升30%,为企业开展AI大模型训练提供更高效的解决方案。相关技术 方案获得了DeepSeek公开致谢,称这是一次"huge speedup"代码贡献。 其次,腾讯还着力解决了GPU通信中的CPU控制瓶颈问题。通过基于IBGDA技术的优化,腾讯使得"控 制面"场景的操作也可以绕过CPU的"中转",进一步降低了延迟和能耗,提升了整体通信效率。 同时,针对GPU直接"对话"时存在的传输顺序混乱难题,腾讯提出了"QP内时序锁"机制,使得多个 GPU间的数据传输能够精准、按顺序完成,即使同时处理1000多个数据传输任务,DeepEP也能自动理 顺先后顺序。 在腾讯的技术优化下,DeepEP不仅在RoCE网络实现性能翻倍,反哺到IB(InfiniBand)网络时更使原 有通信效率再提升30%。 目前该技术已全面开源,并成功应用于腾讯混元大模型等项目的训练推理,在腾讯星脉与H20服务器构 建的高 ...
电子行业跟踪周报:架构级创新,华为UBMesh直击大模型训练的“通信墙”与成本痛点-20250511
Soochow Securities· 2025-05-11 14:05
证券研究报告·行业跟踪周报·电子 电子行业跟踪周报 架构级创新,华为 UB Mesh 直击大模型训练 的"通信墙"与成本痛点-国产算力周报 增持(维持) [Table_Tag] [Table_Summary] 投资要点 ◼ 4DFullMesh 支持下的千卡集群及叠加 Clos 拓扑互连的 8 千卡集群。 UB-Mesh 的机架架构以单机柜 64 个 NPU 为核心,通过分层全连接实 现高效扩展。每个机架内,8 个 NPU 板各集成 8 个 NPU,形成 2D FullMesh 互连,确保 NPU 间低延迟与高带宽通信,同时集成 UB IO 控 制器的 NPU 兼具计算与路由功能,支持间接通信路径优化,减少广播 域冲突;CPU 独立部署于专用板卡,通过低基数交换机与 NPU 动态互 连,可实现 CPU/NPU 比例灵活调整及 CPU/NPU/DDR 资源池化,提升 硬件利用率。机架间通过低基数交换机聚合四路 UB x256 接口,以无阻 塞方式管理跨机架连接,并横向扩展 2D FullMesh 至相邻四个机架,形 成 4D 层级互连,每个机架含 64 个 NPU,四机架构成 Pod 后总规模达 1024 个 ...
新财富·董秘特辑 | 叶静:多维赋能 积极传递公司长期价值
新财富· 2025-05-11 08:31
历经二十一载岁月沉淀,新财富金牌董秘评选已成为中国资本市场极具权威性与公信力的标杆评选,不仅见证 了中国资本市场蓬勃发展的壮阔征程,更以专业视角镌刻下时代变革的深刻印记。金牌董秘群体凭借卓越的专 业素养与创新实践能力,持续优化上市公司治理、深化投资者关系管理,已然成为推动中国资本市场向高质量 发展迈进的一股重要力量。 值此新财富董秘评选二十一周年之际,诚邀历届金牌董秘,分享企业战略、发展历程与职业经验,以实战洞见 解构资本风云,共探行业发展逻辑。 董事会秘书作为上市公司治理架构中的"关键齿轮",在资本市场运作中承担着承上启下、内外联动的 战略职能。优秀董秘既是合规运营的"守门人",更是价值创造的"助推器",其履职效能直接关乎上市 公司治理水平与可持续发展质量。 4月29日,第二十一届新财富金牌董秘、第八届新财富最佳IR港股公司获奖榜单揭晓。 依米康董事会秘书叶静女士,凭借其专业的知识、丰富的经验和敏锐的市场洞察力,从数千位上市公 司候选人中脱颖而出,荣获"第二十一届新财富金牌董秘"称号。 以法务智慧赋能公司治理 助力公司资本运作与行业共建 截至2024年末,依米康及下属子公司已揽获152项专利,186项著作权 ...
DeepSeek致谢腾讯技术团队:对DeepEP的优化,是一次“huge speedup”代码贡献
Xin Lang Ke Ji· 2025-05-07 11:12
| Pull requests | | | | --- | --- | --- | | | | Support multi-QP for normal kernels #130 | | - Merged | | LyricZhao merged 9 commits into main from trom trom /internade multi op c 2 weeks ago | | Conversation a | | - Conveits . A Chacks a [t] Files changed 7 | | | | LyricZhao commented 2 weeks ago · edited + Collaborator | | huge speedup: | | This PR is authored by Teneent Netweek Platform Department. Thanks for the centribution! Now normal kernels have a | | Type | | Dispatch #EP Bottleneck bandwidth Combi ...
CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP,大模型训练最高加速3.8倍
机器之心· 2025-04-30 04:23
李武军教授为通讯作者,硕士生林昊(已毕业 ,现工作于阿里巴巴)、吴轲、李杰为共同第一作者,博士生李俊为参与作者。 训练成本高昂已经成为大模型和人工智能可持续发展的主要障碍之一。 大模型的训练往往采用多机多卡的分布式训练,大模型的分布式训练挑战巨大,即使硬件足够,不熟悉分布式训练的人大概率(实验中验证有 64%-87% 的概率)会因为超参数设置(模型怎么切分和排布、数据怎么切分和排布等)不合理而无法成功运行训练过程。 此外,不熟悉分布式训练的人在碰到大模型训练慢时容易只想到增加 GPU 硬件等 横向拓展(scale-out)方法,而忽略了分布式训练算法的 纵向拓展(scale- up)作用。 论文被 CVPR 2025 录用为 Oral(所有投稿论文的 0.7%,所有录用论文的 3.3%)。 方法简介 实际上,分布式训练算法会极大地影响硬件的算力利用率。高效能分布式训练算法具有高算力利用率。用同样的硬件算力训练同一个模型,高效能分布式训 练算法会比低效能分布式训练算法速度快,最高可能会快数倍甚至数十倍以上。 也就是说,训练同一个模型,高效能分布式训练算法会比低效能分布式训练算法成本低,最高可能会节省数倍甚至数十 ...
技术驱动与绿色转型双轮并进,润泽科技一季报稳健增长
Zheng Quan Shi Bao Wang· 2025-04-29 04:08
润泽科技(300442)2025年4月28日公布一季报。根据公告显示,公司一季度营收11.98亿元,归属于上 市公司股东的净利润4.3亿元,财务指标健康。 润泽科技作为国内领先的智算基础设施提供商,正以技术创新与绿色发展为双引擎,加速构建面向未来 的算力底座。 在技术布局层面,润泽科技持续深化液冷技术商业化落地。2023年,公司交付了业内首例整栋纯液冷绿 色智算中心,随着上架率的持续提升,液冷智算中心PUE已降至1.15左右。2024年,公司不断加大存量 算力中心节能改造力度,加快推进绿色节能设备和新技术应用。目前,公司已经取得了非常显著的效 果,廊坊园区已经交付的智算中心实际运行PUE已达到行业领先水平,更为AI大模型训练提供高可靠、 高效能的算力基础设施支撑。相关研报进一步指出,随着AI客户多样性需求提升,润泽科技在液冷领 域的先发优势将转化为市场壁垒。 绿色低碳战略成为润泽科技另一核心发力点。润泽科技多措并举加大绿色发展力度,推动算力中心"低 碳绿色"进程。2024年,公司A-7、A-18算力中心凭借卓越的节能降耗表现,成功入选国家绿色数据中 心,彰显了其在绿色算力中心建设领域的领先地位。此外,润泽科技 ...
快手Kwaipilot团队全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10
智通财经网· 2025-04-24 04:52
快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化 (two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领 域复现 DeepSeek-R1-Zero 性能的方法。通过使用与 DeepSeek 相同的基础模型 (Qwen2.5-32B) 和纯粹的 强化学习训练,SRPO 成功在 AIME24 和 LiveCodeBench 基准测试中取得了优异成绩(AIME24 = 50、 LiveCodeBench = 41.6),超越了 DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。 技术报告中,快手Kwaipilot团队实现了一种两阶段训练范式,有效解决数学和代码之间内在的响应长度 冲突问题。实验表明,两阶段训练在数学和编程 ...