Workflow
ARO优化器
icon
Search documents
正交化之外是什么?微软等提出ARO优化器:训练提速1/3,揭示矩阵优化新「蓝海」
机器之心· 2026-03-10 01:32
如果你在过去一年关注过大模型训练的技术,大概率听过 Muon 这个名字 —— 这个在月之暗面 K2 模型的相关讨论中走红的优化器,被视为是可能挑战 Adam 的新秀。它的思路很直接:对动量矩阵进行正交化,让各个奇异方向上的更新速率一致,提升训练效率。 Muon 带动了基于正交化算法的改进热潮,但一个根本问题始终较少被讨论:正交化方法,究竟是通往高效训练的必经之路,还是某个更深层原则的一个特 例? 我们是否能跳出 "正交化" 这个框,找到矩阵优化算法的新 "蓝海"? 微软研究院联合港中文(深圳)、威斯康星大学麦迪逊分校最新放出的长篇论文,从方法论创新、工程验证到理论诠释,给出了肯定的答案。 旋转:更一般的优化框架 论文指出,如果把 Muon、SOAP、SPlus、Galore 等常见矩阵优化方法进行简化和抽象,它们本质上都是 在一个被旋转后的坐标系中,使用 Adam 或者 变体进行模型优化 。它们先找到一个旋转矩阵 R,把梯度 G 旋转到新的坐标系下;用某个基座优化器 f 计算单步更新量;最后,将该更新量旋转回原来的 坐标。这个过程可以写成: ARO 优化器:将梯度旋转作为第一原则 团队首先将现有常用矩阵优化器 ...