稀疏模型

Search documents
华为,重大发布!
新华网财经· 2025-06-20 12:17
值得一提的是,5月30日,证券时报·券商中国记者从华为获悉,华为在MoE模型训练领域再进一步,重 磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练 的准万亿MoE模型。同时,华为发布盘古Ultra MoE模型架构和训练方法的技术报告,披露众多技术细 节,充分体现了昇腾在超大规模MoE训练性能上的跨越。 据悉,训练超大规模和极高稀疏性的MoE模型极具挑战,训练过程中的稳定性往往难以保障。针对这一 难题,华为盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾平台上实现了准万亿 MoE模型的全流程训练。 "一年以来,盘古大模型深入行业解难题,在30多个行业、500多个场景中落地。"6月20日下午,在华为 开发者大会2025上,华为常务董事、华为云计算CEO张平安分享了盘古大模型在工业、农业、科研等领 域的丰富创新应用和落地实践,并重磅发布盘古大模型5.5,在自然语言处理、多模态等5大基础模型全 面升级,加速重塑千行万业。 会上,华为云还发布了盘古医学、金融、政务、工业、汽车五个具备深度思考能力的行业自然语言大模 型,加速行业智能化,并将在6月底正式上 ...
面壁小钢炮4.0原生稀疏模型发布:最高220倍提速,开启端侧长文本时代
IPO早知道· 2025-06-10 02:39
首个系统级上下文稀疏化高效创新模型。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 据 IPO早知道消息,面壁智能于日前举行的 2025智源大会 上发布了 新一代「面壁小钢炮」 MiniCPM4.0端侧模型发布 。 一款 8B稀疏闪电版,带来端侧性能创新式大跃升;一款0.5B实力演 绎以小博大,适配广泛终端场景。 值得一提的是, 第四代小钢炮推出了首个原生稀疏模型, 5%的极高稀疏度加持系统级创新技术的 大爆发,让长文本、深思考在端侧真正跑起来,宣告了端侧长文本时代到来 ; 220倍极限加速,一 半参数翻倍性能的表现, 则继续 带来端侧基模最极致表现。 具体来讲, 面对此前端侧模型长文本「龟速推理」业界难题, MiniCPM 4-8B「闪电稀疏版」, 采用了新一代上下文稀疏高效架构 ,相较于同等参数规模端侧模型实现了长文本推理速度 5倍常规 加速以及最高220倍加速(显存受限极限场景下测出),真正让端侧模型长文本推理实现了「快如闪 电」的质变。此外,注意力机制上实现了高效双频换挡,长文本用稀疏,短文本用稠密,切换快如 流。 同时, MiniCPM 4.0推出端侧性能 ...
Jeff Dean:一年内 AI 将取代初级工程师,网友:“Altman 只会画饼,Jeff 说的话才致命”
AI前线· 2025-05-28 05:17
作者 | Tina、核子可乐 最近,谷歌传奇工程师 Jeff Dean 在一次访谈中大胆预测:在一年之内,我们将拥有能够 24/7 全天 候运行、具备"初级工程师"能力的 AI 系统。 Jeff Dean 是现代计算领域的传奇人物,曾主导谷歌在大规模分布式系统和人工智能方面的诸多突 破。他不仅是 Google Brain 项目的联合创始人,还先后推动了 MapReduce、Bigtable、Spanner 和 TensorFlow 等关键系统的诞生,自 2018 年起担任 Google AI 负责人,2023 年在 DeepMind 与 Google Brain 合并后出任谷歌首席科学家。从参与 BERT 论文、主导 TPU 研发,到推动谷歌基础 AI 架构的演进,Dean 几乎见证并亲历了谷歌每一个关键的 AI 发展节点。 作为技术界最具影响力的人物之一,Jeff Dean 的这番言论一经发布,迅速在业内引发热议。虽然此 前包括 Sam Altman 在内的不少业内人士也曾表达过类似观点,但 Jeff Dean 的话语分量显然不同。 正如有网友所说:相比那个总在"兜售"某种概念的 Sam Altman,Je ...
Jeff Dean:一年内 AI 将取代初级工程师,网友:“Altman只会画饼,Jeff说的话才致命”
Xin Lang Cai Jing· 2025-05-18 22:46
编译 | 核子可乐、Tina 最近,谷歌传奇工程师 Jeff Dean 在一次访谈中大胆预测:在一年之内,我们将拥有能够 24/7 全天候运 行、具备"初级工程师"能力的 AI 系统。 Jeff Dean 是现代计算领域的传奇人物,曾主导谷歌在大规模分布式系统和人工智能方面的诸多突破。 他不仅是 Google Brain 项目的联合创始人,还先后推动了 MapReduce、Bigtable、Spanner 和 TensorFlow 等关键系统的诞生,自 2018 年起担任 Google AI 负责人,2023 年在 DeepMind 与 Google Brain 合并后 出任谷歌首席科学家。从参与 BERT 论文、主导 TPU 研发,到推动谷歌基础 AI 架构的演进,Dean 几 乎见证并亲历了谷歌每一个关键的 AI 发展节点。 作为技术界最具影响力的人物之一,Jeff Dean 的这番言论一经发布,迅速在业内引发热议。虽然此前 包括 Sam Altman 在内的不少业内人士也曾表达过类似观点,但 Jeff Dean 的话语分量显然不同。正如有 网友所说:相比那个总在"兜售"某种概念的 Sam Altman, ...