1100多个模型殊途同归,指向一个「通用子空间」,柏拉图又赢一回?
机器之心·2025-12-14 04:53
模型架构的重要性可能远超我们之前的认知。 最近,约翰斯・霍普金斯大学的一项研究发现: 1100 多个不同的神经网络,即使在完全不同的数据集上训练、用不同的初始化和超参数,最终学到的权重都会收 敛到一个共享的低维子空间。 这似乎是说明:存在一个「先验的」数学结构,所有神经网络都在逼近它。训练不是在「创造」什么,而是在「发现」一个早已存在的几何形式。换句话说,神 经网络「想学的东西」似乎高度一致,架构决定了它能学什么,比数据影响更大。 机器之心报道 编辑:张倩 这一发现有助于解释很多「神秘」现象,比如为什么过参数化的模型(参数远多于训练样本)还能泛化?为什么不同初始化最终学到相似的表示?为什么 LoRA、 权重共享这些技术能 work?如果神经网络确实在共享子空间内学习,这将为隐式正则化、可迁移性以及稀疏训练方法的有效性提供支持性解释,同时也为诸如高 效合并、新的优化技术、更快更高效的学习和推理等应用开辟道路。 这篇论文在 Alphaxiv、X 等平台上吸引了很多关注,一度攀升到 Alphaxiv 榜一的位置。 有人说,柏拉图又赢了一回。(注:柏拉图的理念论认为:我们看到的具体事物(桌子、马、圆形)都只是「理念」 ...