模型训练

Search documents
华升股份(600156.SH)拟购买易信科技100%股份 6月24日复牌
智通财经网· 2025-06-23 08:57
Group 1 - The company plans to acquire 100% of Yixin Technology through a combination of share issuance and cash payment, with the transaction price yet to be determined [1] - Yixin Technology focuses on the AIDC field, providing lifecycle services for green computing infrastructure, including planning, construction, operation management, and energy-saving product development [1] - The transaction aligns with national strategies to promote new information infrastructure and cultivate new productive forces [1] Group 2 - Yixin Technology has established and operates multiple high-performance intelligent computing centers in various locations, including Shenzhen, Huizhou, Guangzhou, and Haikou, and is currently building a green computing center in Hunan [2] - The company aims to enhance regional coordination and overall operational efficiency of intelligent computing infrastructure, catering to high-demand scenarios such as low-altitude economy, artificial intelligence, industrial internet, and fintech [2] - This acquisition is expected to deepen the company's integration into the national computing network layout, supporting high-quality development of new productive forces [2]
无损减少80%激活值内存,提升5倍训练序列长度,仅需两行代码
机器之心· 2025-06-23 07:44
本文的第一作者罗琪竣、第二作者李梦琦为香港中文大学(深圳)计算机科学博士生,本文在上海交通大学赵磊老师、香港中文大学(深圳)李肖老师的指 导下完成。 长序列训练对于模型的长序列推理等能力至关重要。随着序列长度增加,训练所需储存的激活值快速增加,占据训练的大部分内存。即便使用梯度检查点 (gradient checkpointing)方法,激活值依然占据大量内存,限制训练所能使用的序列长度。 来自港中文(深圳)和上海交通大学的团队提出 StreamBP 算法。通过对链式法则进行线性分解和分步计算,StreamBP 将大语言模型训练所需的激活值 内存(logits 和 layer activation)降低至梯度检查点(gradient checkpointing)的 20% 左右。 论文标题:StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs 在相同内存限制下,StreamBP 最大序列长度为梯度检查点的 2.8-5.5 倍。在相同序列长度下,StreamBP 的速度和梯度检查点接近甚至更快。 S ...
成立不到五年,这家GPU厂商即将A股上市
Sou Hu Cai Jing· 2025-06-19 10:54
本文由半导体产业纵横(ID:ICVIEWS)综合 国产GPU"四小龙"冲击上市,摩尔线程率先完成上市辅导。 中国证监会官网显示,国产GPU"四小龙"之一的摩尔线程已于6月10日率先完成上市辅导,目前进入"辅 导验收"阶段。 | 全国一体化在线政务服务平台 | | | | | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | | 中国证券监督管理委员会网上办事服务平台(试运行) | | | | | | | | | 公开发行辅导公示 | | 니아있었 | 储导机构 | 餐家时间 国际状态 | | 最出肌肉 | 报告买型 | 擬告标設 | | II 北京 河北 山西 | 川 天津 | 鄉分液程智能科技《北班》 股份有限公司 | 中国证券股份有限公司 | 2024-11-12 辅导治农 | 北京证监局 辅导工作完成报告 关于雕尔成程智能- | | | | 2024年11月,摩尔线程在北京证监局办理辅导备案登记,由中信证券股份有限公司(下称"中信证券") 开展辅导。上市辅导是企业IPO前的必经阶段,由辅导机构协助企业进行全面规范、整改。 ...
当前时点如何看光模块反弹行情
2025-06-06 02:37
当前时点如何看光模块反弹行情 20250605 摘要 英伟达季报显示 Blackwell 产品占一季度收入 70%,部署速度达每周 1,000 架机架,预计二季度部署量超 6,000-10,000 架。GB300 可能 在二季度末出货,从 GB200 切换到 GB300 无太多障碍,采用有限创新 以保证稳健交付,核心变化包括 HBM 配置提升和标配 CX8 网卡。 Mellanox 网络业务超预期,MV link 销售额约 10 亿,ID 和以太坊贡献 10 亿环比增长。收入主要来自交换机、光模块、网卡及 Armlink 协议 授权,这些领域在第一季度有复苏迹象,利好英伟达供应链,如天孚通 信直接受益。 主权国家对 AI 投资超预期,沙特大单已促成,英伟达将在欧洲推动更多 主权 AI 大单。谷歌 IO 大会提到推理需求显著增加,每月 TOKEN 消耗 量达 480 万亿,同比增长 50 倍,支撑推理需求。 博通 Tomahawk 6 提前发布,加速行业迭代。Tomahawk 系列产品从 发布到批量出货通常需一到两年,预计 Tomahawk 6 将在 2026 年下 半年或 2027 年上半年开始规模交付,推动 ...
Gemini2.5弯道超车背后的灵魂人物
Hu Xiu· 2025-06-05 03:14
《硅谷101》创始人泓君邀请了Energent.ai联合创始人Kimi Kong和HeyRevia创始人Shaun Wei,一起和两 位前Google的技术专家聊聊Gemini模型登顶背后的底层逻辑。 以下是这次对话内容的精选: 一、Gemini2.5崛起背后的底层逻辑 泓君:谷歌此次发布的Gemini 2.5 Pro,在当前各项评测中的数据都是所有大模型中最好的,Kimi你可 以分析一下它是如何做到的吗? 从去年在大会前夜被OpenAI的4o模型"精准狙击",到今年Gemini 2.5 Pro全面霸榜。短短一年时间, Gemini是如何完成从追赶者到领跑者的逆转? Kimi:我已经离开DeepMind快一年时间了,也不太清楚我的前同事们在这一年中又做了哪些新的创 新。但大语言模型训练根本的步骤是不变的,包括以下三点:Pre-training(预训练)、SFT(Supervised Fine-tuning,监督微调)和利用RLHF(基于人类反馈的强化学习)技术做的Alignment(对齐)。 大概在去年的NeurIPS(神经信息处理系统大会)上,业内已经普遍承认,公开网络数据基本都已经抓 完了,就像化石燃料已 ...
不用GPU,大模型每2秒吃透一道高数大题!这就是华为的实力
雷峰网· 2025-05-30 09:48
" 从算力利用率突破到后训练吞吐革新,华为用技术创新定义国产 大模型训练标杆。 " 作者丨李希 现在,请大家一起 数一下"1"、"2" 。 OK,短短2秒钟时间,一个 准万亿MoE大模型 就已经 吃透 如何解一道 高等数学大题 了! 而且啊,这个大模型还是 不用GPU 来训练,全流程都是大写的 "国产" 的那种。 这,就是华为通过 "昇腾+Pangu Ultra MoE" 这套组合拳解锁的效果—— 不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行业领先 水平。 有多领先?来看一组数据: 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41% 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s 值得一提的是,华为还 首次 把背后的一大秘籍给亮了出来。 具体来说,华为在这次发布的 技术报告 中,披露了在昇腾CloudMatrix 384超节点上,高效打通大稀疏 比MoE强化学习后训练框架的关键技术。 此举可以说是让以强化学习(RL)为核心机制的后训练,进入到了超节点集群时代。 01 不用GPU的"炼"准万亿大模型方法 在深入华为Pa ...
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
华尔街见闻· 2025-05-30 09:38
现在,请大家一起 数一下"1"、"2" 。 OK,短短2秒钟时间,一个 准万亿MoE大模型 就已经吃透如何解一道 高等数学大题 了! 而且啊,这个大模型还是 不用GPU 来训练,全流程都是大写的 "国产" 的那种。 这,就是华为通 过 " 昇腾+Pan gu Ultra MoE" 这套 组合拳解锁的效果—— 不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行 业领先水平。 有多领先?来看一组数据: 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41% 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s 值得一提的是,华为还 首次 把背后的一大秘籍给亮了出来。 具体来说,华为在这次发布的 技术报告 中,披露了在昇腾CloudMatrix 384超节点上,高效打通 大稀疏比MoE强化学习后训练框架的关键技术。 此举可以说是让以强化学习(RL)为核心机制的后训练,进入到了超节点集群时代。 不用GPU的"炼"准万亿大模型方法 在深入华为Pangu Ultra MoE训练系统全流程之前,老规矩,我们还是先来了解一下此前的技术 痛点。 整体 ...
华为AI实力!不用GPU,大模型每2秒吃透一道高数大题!
第一财经· 2025-05-30 09:32
现在,请大家一起 数一下"1"、"2" 。 而且啊,这个大模型还是 不用GPU 来训练,全流程都是大写的 "国产" 的那种。 这,就是华为通过 "昇腾+Pangu Ultra MoE" 这套组合拳解锁的效果—— OK,短短2秒钟时间,一个 准万亿MoE大模型 就已经 吃透 如何解一道 高等数学大题 了! 不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行业领先 水平。 有多领先?来看一组数据: · 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41% · 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s 不用GPU的"炼"准万亿大模型方法 在深入华为Pangu Ultra MoE训练系统全流程之前,老规矩,我们还是先来了解一下此前的技术痛点。 整体来看,在当前的MoE预训练和强化学习后训练过程中所存在的挑战可以归结为六点: · 并行策略配置困难 :面对数据并行、张量并行、专家并行、流水线并行和序列并行等多种策略的组合 选择,加上稀疏激活导致的负载不平衡因素,很难通过人工经验找到最优的并行配置方案。 · All-to-All通信 ...
华为揭秘:国产昇腾训出世界一流大模型
Guan Cha Zhe Wang· 2025-05-30 08:35
Core Insights - Huawei has launched a new model called Pangu Ultra MoE with a parameter scale of 718 billion, marking a significant advancement in MoE model training on the Ascend AI computing platform [1][3] - The Pangu team has innovated in model architecture and training methods to ensure stable training of ultra-large and highly sparse MoE models, overcoming challenges typically associated with such training processes [1][2] - The release of Pangu Ultra MoE and Pangu Pro MoE series models demonstrates Huawei's capability in achieving a fully autonomous training process with domestic computing power and models, reinforcing the innovation capacity of China's AI infrastructure [3] Model Architecture - The Pangu team introduced the Depth-Scaled Sandwich-Norm (DSSN) stable architecture and TinyInit initialization method, enabling long-term stable training with over 18TB of data on the Ascend platform [1] - The EP loss load optimization method was developed to maintain load balancing among experts and enhance their specialization capabilities [1] - The Pangu Ultra MoE employs advanced MLA and MTP architectures, utilizing a Dropless training strategy during both pre-training and post-training phases to balance model performance and efficiency [1] Training Methods - Huawei's team has disclosed key technologies that enable efficient integration of large sparse MoE reinforcement learning (RL) post-training frameworks on the Ascend CloudMatrix 384 supernodes, marking a transition to supernode cluster training [2] - Recent upgrades to the pre-training system have improved the performance of the MFU in a 10,000-card cluster from 30% to 41% [2] - The recently released Pangu Pro MoE model, with 72 billion parameters and 16 billion active parameters, showcases excellent performance through innovative dynamic expert network activation, rivaling the performance of models with over 100 billion parameters [2]
中石化与石化盈科申请针对设定图案的关键信息提取模型训练方法及相关产品专利,完成设定图案提取模型的训练
Sou Hu Cai Jing· 2025-05-30 03:42
Group 1 - China Petroleum & Chemical Corporation (Sinopec) has applied for a patent titled "Key Information Extraction Model Training Method and Related Products for Set Patterns," with publication number CN120071375A and application date of February 2025 [1] - The patent application describes a method for training a key information extraction model based on documents containing set patterns, which includes converting documents into images, extracting pattern location and category information, and associating this with textual information to create a training dataset [1] Group 2 - China Petroleum & Chemical Corporation was established in 2000, located in Beijing, and primarily engages in the petroleum, coal, and other fuel processing industries, with a registered capital of approximately 12.17 billion RMB [2] - Sinopec has invested in 254 companies, participated in 5,000 bidding projects, and holds 45 trademark records and 5,000 patent records, along with 39 administrative licenses [2] - Sinopec's partner, Sinopec Yinkai Information Technology Co., Ltd., was founded in 2002, also in Beijing, focusing on the accommodation industry, with a registered capital of 500 million RMB [2] - Sinopec Yinkai has invested in 8 companies, participated in 2,070 bidding projects, and holds 113 trademark records and 440 patent records, along with 14 administrative licenses [2]