大模型训练

Search documents
科创板年内新增最大IPO融资项目拆解:摩尔线程的商业化初探
Hua Er Jie Jian Wen· 2025-07-03 13:09
"国产GPU第一股"之战已经打响。 作为"国产GPU四小龙"的摩尔线程智能科技(北京)股份有限公司(下称"摩尔线程")、沐曦集成电路 (上海)股份有限公司(下称"沐曦集成")科创板IPO均已先后获得受理。 同时,GPU大厂壁仞科技、燧原科技、格兰菲智能科技股份有限公司则处于IPO辅导阶段。 这意味着,"国产GPU四小龙"都踏上了资本化之路。 其中摩尔线程无疑是最为受瞩的存在。 摩尔线程的核心团队成员基本来自英伟达,旗下的MTT S80显卡的单精度浮点算力性能接近英伟达RTX 3060,自建的千卡GPU智算集群效率超过同等规模国外同代系GPU集群。 2024年,摩尔线程收入已经达到4.38亿元,同比增长了超2倍。 但由于同期研发费用仍达到13.59亿元,造成的净亏损仍达到14.92亿元,但同比已减亏1成左右。 摩尔线程计划募资80亿元,投向AI训推一体芯片、图形芯片和AI SoC 芯片的研发。 这是今年上半年科创板新增IPO项目中最大的一笔募资规模。 同期获得受理的沐曦集成IPO募资额只有摩尔线程的一半左右。 谁将成为"国产GPU第一股",市场正在翘首以待。 新品"崭露头角"? 这一方面受益于市场对大模型训练、 ...
江苏发布创新提升数字贸易政策措施
Xin Hua Ri Bao· 2025-07-02 21:40
产业赋能是此次政策的一大亮点。江苏将立足文化产业发展数字产品贸易,做强南京、无锡、苏州等国 家对外文化贸易、文化出口基地,推动支持动漫游戏、动漫演艺、影视等产品出口;聚焦优势领域扩大 数字技术贸易,推进高端软件发展,实施"人工智能+"行动计划,拓展服务外包升级数字服务贸易,推 动企业转型,发展新业态新模式;推动数字订购贸易高质量发展,探索跨境电商新场景,联动开放平 台;激活数据产业发展潜能,争创国家级可信数据空间试点,发展"来数加工""离岸数据加工""大模型 训练"新业态。 在推动数字贸易创新集聚方面,江苏将着力推进数字贸易制度型开放,打造数字贸易集聚生态圈。主动 对接高标准经贸规则,推进中新数字贸易合作试点,在数字贸易便利化等方面先行先试,并推动出台江 苏自贸试验区数据出境负面清单。同时,积极创建国家服务贸易创新发展示范区、国家数字贸易示范 区,推动南京软件谷等集聚载体完善基础设施和公共服务,促进国内国际产业链协同发展。 本报讯(记者王梦然)近日,省政府办公厅印发《江苏省创新提升数字贸易推动服务贸易高质量发展的若 干措施》,明确以数字贸易为牵引,推动服务贸易高质量发展,全力打造具有世界聚合力的数字贸易高 地 ...
最高法法官:在大模型训练数据输入端构建合理使用制度
Nan Fang Du Shi Bao· 2025-07-01 09:23
允许合理使用,并非不予关照版权权利人的利益。亓蕾表示,应同步赋予著作权人在前端数据合法取得 以及后端侵权风险规制上的救济手段,也就是说,法律通过赋予著作权人对作品设置有效技术措施的权 利,以及要求AI服务提供者对生成内容的合法性负有注意义务等规定,对合理使用进行动态平衡。 近期,美国法院相继作出两份关于大模型训练数据合理使用问题的裁决,引起中国国内业界和学界的关 注。 大模型公司把作品作为训练数据是否要经过权利人许可?最高人民法院法官亓蕾近期就此撰文认为,大 模型训练的技术实现具有更为优位的价值位阶,她建议采取"宽进严出"的制度设计思路:在训练数 据"输入端",构建数据合理使用制度;在AI应用"输出端"采取较为严格的制度设计,兼顾AI技术发展和 权利人利益保护。 上述观点发表于最高人民法院机关刊《人民司法》杂志2025年第11期。亓蕾认为,AI训练数据虽然属 于"输入端"的问题,但该问题的解决不能割裂AI的"输出端"。"宽进严出"的制度设计思路,首先是建立 在对AI大模型的认知基础上,即应当区分认识"大模型的能力"和"大模型的应用",前者对应"输入端", 后者对应"输出端"。 亓蕾表示,AI训练数据在某种意义 ...
华升股份(600156.SH)拟购买易信科技100%股份 6月24日复牌
智通财经网· 2025-06-23 08:57
智通财经APP讯,华升股份(600156.SH)发布公告,公司拟通过发行股份及支付现金方式,购买易信科 技100%股份,并募集配套资金。截至预案签署日,本次交易相关的审计、评估工作尚未完成,本次交 易标的资产交易价格尚未确定。公司股票将于2025年6月24日(星期二)开市起复牌。 以湖南为核心枢纽,标的公司有望进一步构建辐射中部、承东启西的全国智算资源体系,有效承接低空 经济、人工智能、工业互联网、金融科技等高强度算力需求场景,提升我国智能算力基础设施的区域协 调能力与整体运行效率。本次交易将助力公司深度融入全国算力网络布局,赋能新质生产力高质量发 展。 本次交易紧扣国家推动新型信息基础设施建设和加快培育新质生产力的战略导向。标的公司深耕算力基 础设施领域,已在深圳百旺信、惠州大亚湾、广州南沙、海口等地建成并运营多个高性能智算中心,同 时正在湖南郴州建设绿色智算中心,并计划在河南和四川延伸布局,逐步形成覆盖华南、华中、华北和 西南的区域化算力服务能力。标的公司计划以在建的湖南省绿色智算中心为依托,加快在中部地区落地 高密度、高能效的核心算力节点,具备优先布局中部区域算力资源的先发优势。 标的公司则深耕AIDC ...
成立不到五年,这家GPU厂商即将A股上市
Sou Hu Cai Jing· 2025-06-19 10:54
本文由半导体产业纵横(ID:ICVIEWS)综合 国产GPU"四小龙"冲击上市,摩尔线程率先完成上市辅导。 中国证监会官网显示,国产GPU"四小龙"之一的摩尔线程已于6月10日率先完成上市辅导,目前进入"辅 导验收"阶段。 | 全国一体化在线政务服务平台 | | | | | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | | 中国证券监督管理委员会网上办事服务平台(试运行) | | | | | | | | | 公开发行辅导公示 | | 니아있었 | 储导机构 | 餐家时间 国际状态 | | 最出肌肉 | 报告买型 | 擬告标設 | | II 北京 河北 山西 | 川 天津 | 鄉分液程智能科技《北班》 股份有限公司 | 中国证券股份有限公司 | 2024-11-12 辅导治农 | 北京证监局 辅导工作完成报告 关于雕尔成程智能- | | | | 2024年11月,摩尔线程在北京证监局办理辅导备案登记,由中信证券股份有限公司(下称"中信证券") 开展辅导。上市辅导是企业IPO前的必经阶段,由辅导机构协助企业进行全面规范、整改。 ...
不用GPU,大模型每2秒吃透一道高数大题!这就是华为的实力
雷峰网· 2025-05-30 09:48
" 从算力利用率突破到后训练吞吐革新,华为用技术创新定义国产 大模型训练标杆。 " 作者丨李希 现在,请大家一起 数一下"1"、"2" 。 OK,短短2秒钟时间,一个 准万亿MoE大模型 就已经 吃透 如何解一道 高等数学大题 了! 而且啊,这个大模型还是 不用GPU 来训练,全流程都是大写的 "国产" 的那种。 这,就是华为通过 "昇腾+Pangu Ultra MoE" 这套组合拳解锁的效果—— 不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行业领先 水平。 有多领先?来看一组数据: 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41% 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s 值得一提的是,华为还 首次 把背后的一大秘籍给亮了出来。 具体来说,华为在这次发布的 技术报告 中,披露了在昇腾CloudMatrix 384超节点上,高效打通大稀疏 比MoE强化学习后训练框架的关键技术。 此举可以说是让以强化学习(RL)为核心机制的后训练,进入到了超节点集群时代。 01 不用GPU的"炼"准万亿大模型方法 在深入华为Pa ...
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
华尔街见闻· 2025-05-30 09:38
现在,请大家一起 数一下"1"、"2" 。 OK,短短2秒钟时间,一个 准万亿MoE大模型 就已经吃透如何解一道 高等数学大题 了! 而且啊,这个大模型还是 不用GPU 来训练,全流程都是大写的 "国产" 的那种。 这,就是华为通 过 " 昇腾+Pan gu Ultra MoE" 这套 组合拳解锁的效果—— 不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行 业领先水平。 有多领先?来看一组数据: 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41% 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s 值得一提的是,华为还 首次 把背后的一大秘籍给亮了出来。 具体来说,华为在这次发布的 技术报告 中,披露了在昇腾CloudMatrix 384超节点上,高效打通 大稀疏比MoE强化学习后训练框架的关键技术。 此举可以说是让以强化学习(RL)为核心机制的后训练,进入到了超节点集群时代。 不用GPU的"炼"准万亿大模型方法 在深入华为Pangu Ultra MoE训练系统全流程之前,老规矩,我们还是先来了解一下此前的技术 痛点。 整体 ...
华为AI实力!不用GPU,大模型每2秒吃透一道高数大题!
第一财经· 2025-05-30 09:32
现在,请大家一起 数一下"1"、"2" 。 而且啊,这个大模型还是 不用GPU 来训练,全流程都是大写的 "国产" 的那种。 这,就是华为通过 "昇腾+Pangu Ultra MoE" 这套组合拳解锁的效果—— OK,短短2秒钟时间,一个 准万亿MoE大模型 就已经 吃透 如何解一道 高等数学大题 了! 不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行业领先 水平。 有多领先?来看一组数据: · 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41% · 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s 不用GPU的"炼"准万亿大模型方法 在深入华为Pangu Ultra MoE训练系统全流程之前,老规矩,我们还是先来了解一下此前的技术痛点。 整体来看,在当前的MoE预训练和强化学习后训练过程中所存在的挑战可以归结为六点: · 并行策略配置困难 :面对数据并行、张量并行、专家并行、流水线并行和序列并行等多种策略的组合 选择,加上稀疏激活导致的负载不平衡因素,很难通过人工经验找到最优的并行配置方案。 · All-to-All通信 ...
Pangu Ultra准万亿MoE模型:业界一流,源自昇腾原生的长稳训练
第一财经· 2025-05-29 10:50
Pangu Ultra MoE是一个全流程在昇腾NPU上训练的准万亿MoE模型。最近华为盘古团队发布了Pangu Ultra MoE模型架构和训练方法的技术报告[1],进一步披露了 这个模型的细节。 训 练 超大规模和极高稀疏性的 MoE 模型 极具挑战,训练过程中的稳定性往往难以保障。针对这一难题,盘古团队在模型架构和训练方法上进行了创新性设计, 成功地在昇腾 NPU 上实现了准万亿 MoE 模型的全流程训练。 盘古团队提出 Depth-Scaled Sandwich-Norm(DSSN)稳定架构 和 TinyInit 小初始化 的方法,在昇腾 NPU 上实现了 10+ T tokens 数据的长期稳定训练。此外,他们 还提出了 EP group loss 负载优化 方法,这一设计不仅保证了各个专家之间能保持较好的负载均衡,也提升了专家的领域特化能力。同时,Pangu Ultra MoE 使用了 业界先进的 MLA 和 MTP 架构,在训练时使用了 Dropless 训练策略。 破解准万亿 MoE 模型性能瓶颈 打造芯片协同的先进架构 近期,盘古团队在 MoE 模型训练领域再进一步,重磅推出参数规模高达 7 ...
训练大模型,终于可以“既要又要还要”了
虎嗅APP· 2025-05-29 10:34
HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.7 :模型训练 Pangu Ultra MoE是一个全流程在昇腾NPU上训练的准万亿MoE模型 ...