ARO优化器 - filings, earnings calls, financial reports, news - Reportify

ARO优化器

Search documents

正交化之外是什么？微软等提出ARO优化器：训练提速1/3，揭示矩阵优化新「蓝海」

机器之心· 2026-03-10 01:32

如果你在过去一年关注过大模型训练的技术，大概率听过 Muon 这个名字 —— 这个在月之暗面 K2 模型的相关讨论中走红的优化器，被视为是可能挑战 Adam 的新秀。它的思路很直接：对动量矩阵进行正交化，让各个奇异方向上的更新速率一致，提升训练效率。 Muon 带动了基于正交化算法的改进热潮，但一个根本问题始终较少被讨论：正交化方法，究竟是通往高效训练的必经之路，还是某个更深层原则的一个特例？我们是否能跳出 "正交化" 这个框，找到矩阵优化算法的新 "蓝海"？微软研究院联合港中文（深圳）、威斯康星大学麦迪逊分校最新放出的长篇论文，从方法论创新、工程验证到理论诠释，给出了肯定的答案。旋转：更一般的优化框架论文指出，如果把 Muon、SOAP、SPlus、Galore 等常见矩阵优化方法进行简化和抽象，它们本质上都是在一个被旋转后的坐标系中，使用 Adam 或者变体进行模型优化。它们先找到一个旋转矩阵 R，把梯度 G 旋转到新的坐标系下；用某个基座优化器 f 计算单步更新量；最后，将该更新量旋转回原来的坐标。这个过程可以写成： ARO 优化器：将梯度旋转作为第一原则团队首先将现有常用矩阵优化器 ...

Microsoft(US:MSFT)

神经网络的参数对称性

软件与服务

神经网络的参数对称性

软件与服务