Workflow
模型训练
icon
Search documents
电子行业跟踪周报:架构级创新,华为UBMesh直击大模型训练的“通信墙”与成本痛点-20250511
Soochow Securities· 2025-05-11 14:05
证券研究报告·行业跟踪周报·电子 电子行业跟踪周报 架构级创新,华为 UB Mesh 直击大模型训练 的"通信墙"与成本痛点-国产算力周报 增持(维持) [Table_Tag] [Table_Summary] 投资要点 ◼ 4DFullMesh 支持下的千卡集群及叠加 Clos 拓扑互连的 8 千卡集群。 UB-Mesh 的机架架构以单机柜 64 个 NPU 为核心,通过分层全连接实 现高效扩展。每个机架内,8 个 NPU 板各集成 8 个 NPU,形成 2D FullMesh 互连,确保 NPU 间低延迟与高带宽通信,同时集成 UB IO 控 制器的 NPU 兼具计算与路由功能,支持间接通信路径优化,减少广播 域冲突;CPU 独立部署于专用板卡,通过低基数交换机与 NPU 动态互 连,可实现 CPU/NPU 比例灵活调整及 CPU/NPU/DDR 资源池化,提升 硬件利用率。机架间通过低基数交换机聚合四路 UB x256 接口,以无阻 塞方式管理跨机架连接,并横向扩展 2D FullMesh 至相邻四个机架,形 成 4D 层级互连,每个机架含 64 个 NPU,四机架构成 Pod 后总规模达 1024 个 ...
新财富·董秘特辑 | 叶静:多维赋能 积极传递公司长期价值
新财富· 2025-05-11 08:31
历经二十一载岁月沉淀,新财富金牌董秘评选已成为中国资本市场极具权威性与公信力的标杆评选,不仅见证 了中国资本市场蓬勃发展的壮阔征程,更以专业视角镌刻下时代变革的深刻印记。金牌董秘群体凭借卓越的专 业素养与创新实践能力,持续优化上市公司治理、深化投资者关系管理,已然成为推动中国资本市场向高质量 发展迈进的一股重要力量。 值此新财富董秘评选二十一周年之际,诚邀历届金牌董秘,分享企业战略、发展历程与职业经验,以实战洞见 解构资本风云,共探行业发展逻辑。 董事会秘书作为上市公司治理架构中的"关键齿轮",在资本市场运作中承担着承上启下、内外联动的 战略职能。优秀董秘既是合规运营的"守门人",更是价值创造的"助推器",其履职效能直接关乎上市 公司治理水平与可持续发展质量。 4月29日,第二十一届新财富金牌董秘、第八届新财富最佳IR港股公司获奖榜单揭晓。 依米康董事会秘书叶静女士,凭借其专业的知识、丰富的经验和敏锐的市场洞察力,从数千位上市公 司候选人中脱颖而出,荣获"第二十一届新财富金牌董秘"称号。 以法务智慧赋能公司治理 助力公司资本运作与行业共建 截至2024年末,依米康及下属子公司已揽获152项专利,186项著作权 ...
DeepSeek致谢腾讯技术团队:对DeepEP的优化,是一次“huge speedup”代码贡献
Xin Lang Ke Ji· 2025-05-07 11:12
Core Insights - Tencent's technical team has optimized the DeepEP communication framework, achieving significant performance improvements across various network environments, with a 100% performance increase in RoCE networks and a 30% increase in IB networks, enhancing AI large model training efficiency [1][2] Group 1: Technical Enhancements - The optimization involved replacing IBRC with IBGDA and utilizing distinct Queue Pairs (QPs) per channel for parallel data transmission, which improved the robustness and communication performance of the normal kernels [1] - The algorithm bandwidth for the optimized framework reached 58 GB/s in RDMA scenarios, with physical bandwidth calculated at 43.5 GB/s [1] Group 2: Industry Impact - Since the open-sourcing of DeepSeek, including DeepEP, in February, the framework has demonstrated a 300% increase in communication efficiency, addressing the dependency on NVIDIA NCCL for MoE architecture large models [2] - The optimizations have been successfully applied in Tencent's mixed Yuan model projects, showcasing excellent versatility in high-performance environments built with Tencent's Starry Network and H20 servers [2]
CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP,大模型训练最高加速3.8倍
机器之心· 2025-04-30 04:23
李武军教授为通讯作者,硕士生林昊(已毕业 ,现工作于阿里巴巴)、吴轲、李杰为共同第一作者,博士生李俊为参与作者。 训练成本高昂已经成为大模型和人工智能可持续发展的主要障碍之一。 大模型的训练往往采用多机多卡的分布式训练,大模型的分布式训练挑战巨大,即使硬件足够,不熟悉分布式训练的人大概率(实验中验证有 64%-87% 的概率)会因为超参数设置(模型怎么切分和排布、数据怎么切分和排布等)不合理而无法成功运行训练过程。 此外,不熟悉分布式训练的人在碰到大模型训练慢时容易只想到增加 GPU 硬件等 横向拓展(scale-out)方法,而忽略了分布式训练算法的 纵向拓展(scale- up)作用。 论文被 CVPR 2025 录用为 Oral(所有投稿论文的 0.7%,所有录用论文的 3.3%)。 方法简介 实际上,分布式训练算法会极大地影响硬件的算力利用率。高效能分布式训练算法具有高算力利用率。用同样的硬件算力训练同一个模型,高效能分布式训 练算法会比低效能分布式训练算法速度快,最高可能会快数倍甚至数十倍以上。 也就是说,训练同一个模型,高效能分布式训练算法会比低效能分布式训练算法成本低,最高可能会节省数倍甚至数十 ...
技术驱动与绿色转型双轮并进,润泽科技一季报稳健增长
Core Insights - The company reported a revenue of 1.198 billion yuan and a net profit of 430 million yuan for Q1 2025, indicating healthy financial metrics [1] - As a leading provider of intelligent computing infrastructure in China, the company is leveraging technological innovation and green development to build a future-oriented computing foundation [1] - The company has established seven AIDC intelligent computing clusters across key economic regions, with all delivered and upcoming computing centers having secured production orders, expected to be operational by 2025 [1] Technological Developments - The company is deepening the commercialization of liquid cooling technology, having delivered the industry's first fully liquid-cooled green computing center in 2023 [1] - The Power Usage Effectiveness (PUE) of the liquid-cooled computing centers has been reduced to approximately 1.15, showcasing significant energy efficiency [1] - The company is enhancing energy-saving renovations in existing computing centers and has achieved industry-leading PUE levels in its Langfang park, supporting AI model training with reliable and efficient computing infrastructure [1] Green Development Strategy - The company is actively promoting a "low-carbon green" process for its computing centers, with its A-7 and A-18 centers recognized as national green data centers due to their excellent energy-saving performance [2] - In 2024, the company completed a total of 800 million kilowatt-hours in green electricity transactions, emphasizing its commitment to energy-saving technology research and green transformation [2] Strategic Expansion - The company's strategic layout in Hainan Free Trade Port aligns with national policies, as the State Council approved the establishment of cross-border e-commerce comprehensive pilot zones in Hainan and other cities [3] - The company is constructing an intelligent computing infrastructure cluster in Danzhou, Hainan, with a planned capacity of approximately 30,000 cabinets, aimed at enhancing cross-border operations [3] - This initiative supports the digital economy development directive outlined in the Hainan Free Trade Port construction plan and lays the groundwork for the company to expand into overseas markets [3]
中电申请数据配比确定方法专利,解决确定不同领域数据集配比使模型达预期效果的问题
Jin Rong Jie· 2025-04-28 11:43
中电数创(北京)科技有限公司,成立于2020年,位于北京市,是一家以从事科技推广和应用服务业为 主的企业。企业注册资本5000万人民币。通过天眼查大数据分析,中电数创(北京)科技有限公司参与 招投标项目4次,专利信息81条,此外企业还拥有行政许可3个。 本文源自:金融界 金融界2025年4月28日消息,国家知识产权局信息显示,中电数据产业集团有限公司、中电数创(北 京)科技有限公司申请一项名为"数据配比确定方法、系统、电子设备及存储介质"的专利,公开号 CN119884742A,申请日期为2024年12月。 专利摘要显示,本申请公开了一种数据配比确定方法、系统、电子设备及存储介质,涉及模型训练技术 领域,公开的数据配比确定方法包括:随机生成第一数量的数据配比信息,并确定各数据配比信息各自 对应的训练集;获取各训练集各自微调出的目标模型,并将测试集分别输入各目标模型,得到各数据配 比信息各自对应的实际准确度;基于各数据配比信息和各实际准确度训练回归模型,并通过训练完成的 回归模型对随机生成的第二数量的数据配比信息进行处理,得到各个预测准确度;确定各预测准确度中 的最高预测准确度,并将最高预测准确度对应的数据配比 ...
快手Kwaipilot团队全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10
智通财经网· 2025-04-24 04:52
快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化 (two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领 域复现 DeepSeek-R1-Zero 性能的方法。通过使用与 DeepSeek 相同的基础模型 (Qwen2.5-32B) 和纯粹的 强化学习训练,SRPO 成功在 AIME24 和 LiveCodeBench 基准测试中取得了优异成绩(AIME24 = 50、 LiveCodeBench = 41.6),超越了 DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。 技术报告中,快手Kwaipilot团队实现了一种两阶段训练范式,有效解决数学和代码之间内在的响应长度 冲突问题。实验表明,两阶段训练在数学和编程 ...
中美AI叙事和背后的算力逻辑
雪球· 2025-04-04 03:16
长按即可参与 作者: 门捷列夫学徒 来源:雪球 自DS出现以后,我看网上没有很好的一篇文章去总结目前中美ai叙事的差异以及背后的算力需 求。简单来说: China Ai叙事:DS开源带来的LLM平权以及由此延伸的各种ds蒸馏小模型端侧(包括一体机)、 边缘侧的ai应用落地,大有全面开花之势。 China算力:H20和国产Asic就行,甚至端侧还有更简单的方案。当然杰文森悖论还是适用的,大 厂加大数据中心投入。 北美Ai叙事:继续大力出奇迹通往AGI,各种多模态高阶模型推出,万亿参数大模型继续走起。 北美算力:高端NV卡仍然供不应求,GPUs are melting。。。 芯片来跑。 所以各位小伙伴期待的国内版文生图可能就要等等了,哪怕推出了估计也会卡得要死。主要是还 是卡不行。 其实你看tx的微信就是聊天,所以llm对于他们暂时就够用。而zj因为是视频起家,肯定对于高端 卡的需求是更大的。前面没说的是Ai视频生成更需要500+tflops和48G显存,更需要NV的高端 卡。 这也是为什么我们直到现在都没看到国内的 csp 推出多模态的Ai应用 。 现在的gap在于:显然北美这条路出成果没这么快,而国内ai叙事 ...
速递|O'Reilly指控OpenAI"窃书" 训练 GPT-4o,AI数据黑箱再陷版权风暴
Z Potentials· 2025-04-02 03:17
图片来源: Unsplash 多家机构指控 OpenAI 可能利用付费墙后的 O'Reilly 书籍训练 AI 模型, 未经许可使用受版权保护的 内容训练其人工智能。 如今,一家 AI 监督组织发布的新论文提出了严厉指控,称该公司日益依赖未公开且未获授权的书籍 来训练更复杂的 AI 模型。 人工智能模型本质上是复杂的预测引擎。通过大量数据(如书籍、电影、电视剧等)的训练,它们学 习模式及从简单提示中推断的新方法。当模型 "撰写"关于希腊悲剧的论文或"绘制"吉卜力风格图像 时, 它只是在利用其庞大知识库进行近似模拟,并未创造出任何新内容。 在 ChatGPT 中, GPT-4o 是默认模型。论文指出, O'Reilly 与 OpenAI 之间并未签署许可协议。 "OpenAI 最新且能力更强的模型 GPT-4o ,相比早期模型 GPT-3.5 Turbo ,对 O'Reilly 付费书籍内容 展现出更强的识别能力…… " 论文合著者写道, " 相比之下, GPT-3.5 Turbo 对公开可获取的 O'Reilly 书籍样本表现出更高的相对识别率。 " 该论文采用了名为 DE-COP 的方法( 2024 年首次 ...
字节跳动,重大宣布!成本再降40%!
证券时报· 2025-03-10 12:43
大模型训练成本,再砍一刀! MoE是当前大模型的主流架构,最近大火的国产大模型DeepSeek采用的就是MoE架构。DeepSeek自研的 DeepSeekMoE作为一种创新的大规模语言模型架构,通过整合专家混合系统、改进的注意力机制和优化 的归一化策略,在模型效率与计算能力之间实现了新的平衡。 字节豆包大模型团队表示,MoE在分布式训练中存在大量跨设备通信开销,严重制约了大模型训练效率和 成本。针对这一难题,字节在内部研发了COMET计算-通信重叠技术,通过多项创新,大幅压缩了MoE专 家通信空转时间。 在此前的"开源周"活动中,DeepSeek也曾开源了团队为解决MoE通信瓶颈而采取的DualPipe+DeepEP方 案。不过,与之不同的是,COMET可以像插件一样直接接入已有的MoE训练框架,支持业界绝大部分主 流大模型,无需对训练框架进行侵入式改动,更加方便、灵活、通用。这一方法,还因其简洁性与通用性 而高分入选全球机器学习系统顶级会议 MLSys 2025,被认为"在大规模生产环境中极具应用潜力"。 不仅如此,由于在降低MoE通信开销上,COMET采用了计算-通信融合算子的优化方式,DeepSeek ...