Workflow
斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出
3 6 Ke·2025-09-07 23:36

自 2014 年提出以来,Adam 及其改进版 AdamW 长期占据开放权重语言模型预训练的主导地位,帮助模型在海量数据下保持稳定并实现较快收敛。 随着模型规模迅速扩大,预训练已成为计算密集型任务的典型代表,在大模型研发中往往是最主要的计算开销。在这种背景下,优化器的设计直接关系到 收敛速度与计算成本。 研究者们探索了多种改进方向,其中最快的优化器往往采用矩阵型预条件子(如 Muon、Soap、Kron),相较于经过严格调优的 AdamW,可以带来约 30–40% 的迭代级别加速。 斯坦福大学 Percy Liang 团队的研究指出,尽管存在许多声称能提供显著加速(1.4 至 2 倍)的替代方案,AdamW 依然是预训练的稳健首选,但矩阵型方 法在特定数据–模型比例下展现出明显优势。 研究者认为,这种现象可能源于两个关键的方法论缺陷: 问题 1:不公平的超参数调优。 基线模型通常调优不足:在常用的 AdamW 基线中,仅仅是调优学习率这一个参数,就能在 1.3 亿参数规模的模型上实现 2 倍的加速。 固定共享的超参数并不能保证比较的公平性:例如,与标准的权重衰减值 0.1 相比,Lion 优化器更偏好较高的权 ...