代码大模型的Scaling Laws - filings, earnings calls, financial reports, news - Reportify

代码大模型的Scaling Laws

Search documents

北航提出代码大模型的 Scaling Laws：编程语言差异与多语言最优配比策略

机器之心· 2025-12-24 09:30

北航、人大和九坤投资共同撰写的论文《Scaling Laws for Code: Every Programming Language Matters》整理而成。在代码大模型（Code LLMs）的预训练中，行业内长期存在一种惯性思维，即把所有编程语言的代码都视为同质化的文本数据，主要关注数据总量的堆叠。然而，现代软件开发本质上是多语言混合的，不同语言的语法特性、语料规模和应用场景差异巨大。如果忽略这些差异，笼统地应用通用的 Scaling Laws，往往会导致性能预测偏差和算力浪费。为了打破这一黑盒，研究团队耗费了相当于 33.6 万个 H800 GPU 时，进行了超过 1000 次实验。研究覆盖了从 0.2B 到 14B 的模型参数规模，以及高达 1T 的训练数据量，系统性地对 Python、Java、JavaScript、TypeScript、C#、Go、Rust 这七种主流语言进行了解构。这项工作的核心贡献在于建立了区分语言特性的 Scaling Laws ，并据此提出了一套数学可解的最优数据配比方案。图 1：论文提出的多语言 Scaling Law 与传统均匀分布基线的 Loss ...

代码大模型的Scaling Laws

多语言最优配比策略

代码大模型（Code LLMs）

代码大模型的Scaling Laws

多语言最优配比策略

代码大模型（Code LLMs）