他们在1993年就提出了Scaling Law
量子位·2025-09-02 06:17
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 原来,Scaling Law在32年前就被提出了! 不是2020年的OpenAI、不是2017年的百度, 而是1993年的贝尔实验室。 在一篇名为《Learning Curves: Asymptotic Values and Rate of Convergence》的文章里提出一种预测方法: 训练误差和测试误差随训练规模增加,都会收敛到同一个渐近误差值,这种收敛符合 幂律形式 。 这篇论文的研究初衷是为了节省训练分类器(classifiers)的计算资源 (果然啥时候都缺算力) 。 当时的机器学习算法能实现将输入数据分配到某个类别里,比如输入一张手写数字的像素点,判断它是不是某一个数组。 通过这种方法,研究人员可以预测模型在更大数据集上的表现。 这和现在大家常提的Scaling Law几乎一致: 在合理的范围内,通过简单地增加模型参数量(N)、训练数据量(D)和计算量(FLOPS,C),可以以一种可预测的、平滑的方式显 著提升模型性能。 而1993年的这篇论文来头也不小,作者一共5位,其中包含了 支持向量机 的提出者Vladimir Vapnik和Cori ...