清华姚班校友刘壮团队再发力,无需归一化的Transformer性能进化
机器之心·2026-01-22 11:00

编辑|陈陈、冷猫 刘壮带队的无需归一化 Transformer 又有新的版本了。 一直以来,在 Transformer 架构里,LayerNorm 几乎是标配,但它也有明显问题:比如计算和访存成本高,尤其在大模型推理阶段。 因此,「无归一化(Normalization-Free)」Transformer 成为研究者探索的一个长期目标,但一直卡在两个难点上:训练不稳定,以及性能明显不如带归一化的模 型。 而这篇新论文提出了一种非常简单的新激活层 Derf(Dynamic erf),让「无归一化(Normalization-Free)」的 Transformer 不仅能稳定训练,还在多个设置下性 能超过了带 LayerNorm 的标准 Transformer。 刘壮本人也在 X 账号上分享了这一成果。他表示,这是一篇关于更强无归一化 Transformer 的新论文:研究团队提出了 Derf(Dynamic erf),一种结构极其简单 的逐点(point-wise)层。借助 Derf,完全不依赖归一化层的 Transformer 不仅能够稳定训练,而且 在实 际性能上 已经可以超越传统依赖 LayerNorm 等 ...