Muon

Search documents
腾讯研究院AI速递 20250617
腾讯研究院· 2025-06-16 14:55
生成式AI 一、 GPT-5训练背后隐藏大佬 , 靠一篇 Muon 博客入职OpenAI 1. 研究员Keller Jordan仅凭一篇关于Muon优化器的博客文章成功加入OpenAI,可能正用于 GPT-5训练; 2. Muon是针对神经网络隐藏层的优化器,采用牛顿-舒尔茨迭代法实现更新矩阵正交化,训 练速度比AdamW快; 3. Keller批评优化器研究文献充斥未 能 被采用的方法,提倡在竞争性训练任务中验证新方法 有效性。 https://mp.weixin.qq.com/s/_Fw2pT9Y4Gxb3z5Tmg6ogA 二、 谷歌AI路线图,要抛弃注意力机制?Transformer有致命缺陷 1. 谷歌AI路线图承认现有Transformer注意力机制无法实现无限上下文,需要在核心架构层 面进行全新创新; 2. Gemini未来将成为谷歌的"统一线程",连接所有服务并向"主动式AI"转变,支持全模态能 力和智能体功能; 3. 谷歌重组AI团队,将研究与产品团队整合到DeepMind,加速创新节奏,Gemini 2.5 Pro 是 重大转折点。 https://mp.weixin.qq.com/s/S ...
爆肝一篇博客拿下OpenAI Offer,Muon作者怒揭:几乎所有优化器的论文都是“假的”
3 6 Ke· 2025-06-16 12:46
不是顶会论文,也没有发在 arXiv 上,甚至连"正式发表"都称不上——但就是这样的一篇纯博客文章,却让一名研究员成功拿到了 OpenAI 的 Offer,甚 至据说这篇博客的技术还被用于 GPT-5 的训练工作。 听起来像是一个段子,但这位名叫 Keller Jordan 的研究员却真实地做到了。 Keller Jordan 的这篇博客叫做《Muon: An optimizer for hidden layers in neural networks》(https://kellerjordan.github.io/posts/muon/),其中提出了 一种名为 Muon 的新优化器。 简单来看,这篇文章既不是论文格式,也没有同行评审,却因实测效果出色而意外走红。更出人意料的是,它还成了他叩开 OpenAI 大门的敲门砖。 这一消息最早由 Keller Jordan 的合作者、AI 云平台初创公司 Hyperbolic Labs 的联合创始人 Yuchen Jin 在 X 上公开。 Yuchen Jin 写道: 「很多博士(包括曾经的我)常常陷入一个误区:认为在顶级会议上发表论文就是最终目标。 但"发表"并不 ...
Muon作者仅用一篇博客,就被OpenAI看中了
机器之心· 2025-06-16 04:04
Keller Jordan,OpenAI 深度学习团队主要成员之一,用一篇博客就撬开了 OpenAI 的大门。 这篇名为《 Muon: An optimizer for hidden layers in neural networks 》的博客发布于 2024 年 12 月,而 Keller Jordan 入职 OpenAI 的时间恰好也在此时。 机器之心报道 机器之心编辑部 「许多博士(包括过去的我)都陷入了这样一个误区:认为只有在顶级会议上发表论文才是终极目标。」AI 云服务商 Hyperbolic CEO Yuchen Jin 如是说。 但现在,发表论文并不与学术影响力直接画等号了。 在这篇博客中,Keller Jordan 提出并构建了一种用于神经网络隐藏层的优化器 Muon,其能够在保证神经网络(包括 Transformer 和 CNN)的准确度的前提上大幅 提升其训练速度。 为何只发了博客,而不是发表一篇正式的 arXiv 论文,Keller Jordan 这样解释:能否发表一篇关于新优化器的论文,且包含大量看起来不错的结果,和这个优化器 是否真的有效之间没有任何联系。「我只相信速通。」 一直以来 ...