经典ReLU回归！重大缺陷「死亡ReLU问题」已被解决

机器之心报道机器之心编辑部不用换模型、不用堆参数，靠 SUGAR 模型性能大增！在深度学习领域中，对激活函数的探讨已成为一个独立的研究方向。例如 GELU、SELU 和 SiLU 等函数凭借其平滑梯度与卓越的收敛特性，已成为热门选择。尽管这一趋势盛行，经典 ReLU 函数仍因其简洁性、固有稀疏性及其他优势拓扑特性而广受青睐。然而 ReLU 单元易陷入所谓的「死亡 ReLU 问题」，一旦某个神经元在训练中输出恒为 0，其梯度也为 0，无法再恢复。这一现象最终制约了其整体效能，也是 ReLU 网络的重大缺陷。正是死亡 ReLU 问题催生了大量改进的线性单元函数，包括但不限于：LeakyReLU、PReLU、GELU、SELU、SiLU/Swish 以及 ELU。这些函数通过为负预激活值引入非零激活，提供了不同的权衡。本文，来自德国吕贝克大学等机构的研究者引入了一种新颖的方法：SUGAR（Surrogate Gradient for ReLU），在不牺牲 ReLU 优势的情况下解决了 ReLU 的局限性。即前向传播仍使用标准 ReLU（保持其稀疏性和简单性），反向传播时替换 ReLU 的导数为 ...