Workflow
Canon层
icon
Search documents
小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟
量子位· 2026-01-11 04:02
一水 发自 凹非寺 量子位 | 公众号 QbitAI 小模型身上的"秘密"这下算是被扒光了! 知名开源项目OpenEvolve作者,刚刚用一篇长文揭示了 70M小模型 的几个重要发现: 其一,架构的重要性远低于大家的想象。 相比之下,模型"形状" (深度-宽度比) 更重要。 其二,小模型层数也存在"玄学" ,12/32/64层效果好,16/24/48/层效果糟,而且最佳层数为32。 当然了,作者还解密了这一"层数玄学"的背后原因—— "隐藏维度"是否大于等于512 。 上述结论一出,社区里迅速刮起了一股讨论之风,大家还与作者进行了各种互动: 别急,咱这就详细看看—— 发现小模型层数存在"玄学" 开始之前,简单介绍下作者 Asankhaya Sharma 。 他最为人熟知的成就主要包括:1)在很多人还主要围绕模型规模、参数量和训练方法打转时,他率先关注到了大语言模型的"推理时计算", 并以唯一作者的身份发表了一篇论文进行详细叙述;2)开源了OptiLLM、OpenEvolve、Adaptive Classifier等一众知名项目。 | | Overview Packages Repositories 121 P ...