打破代码大模型训练瓶颈：微软&剑桥&普林推出MicroCoder，算法、数据、框架、训练经验全面升级

MicroCoder团队投稿量子位 | 公众号 QbitAI 新一代代码模型的训练动态已与旧模型截然不同，主流强化学习方法和数据集在其上几乎"失效"。微软亚洲研究院与剑桥大学、普林斯顿联合推出 MicroCoder ，从算法、数据、框架、训练经验四个维度全面升级，在最新代码测试集上取得明显提升，并从七个方面开源了34条训练洞察。背景：旧经验遇上新模型，为何几乎全部"失效"？强化学习正在成为代码大模型能力提升的核心路径。以GRPO为代表的策略优化方法在数学推理任务上积累了大量成功经验，人们自然地把这套方法迁移到了代码生成上。然而研究者很快发现了一个现象：用DeepCoder这类主流数据集训练最新推理模型，性能几乎没有提升；而同样的做法在过去版本的模型上却有显著效果。这背后的原因是代际性的：最新推理模型的能力已经超出了主流数据集的难度，这些题目对它而言过于简单，无法产生有效的学习。与此同时，最新推理模型在训练中输出长度持续增长，而旧模型的输出长度稳定甚至下降，两代模型的训练动态已经截然不同，专为旧模型设计的训练方法在新模型上不再适用。针对这一训练瓶颈，来自微软亚洲研究院、剑桥大学和普 ...