打破代码大模型训练瓶颈:微软&剑桥&普林推出MicroCoder,算法、数据、框架、训练经验全面升级
MicrosoftMicrosoft(US:MSFT) 量子位·2026-03-29 05:28

MicroCoder团队 投稿 量子位 | 公众号 QbitAI 新一代代码模型的训练动态已与旧模型截然不同,主流强化学习方法和数据集在其上几乎"失效"。 微软亚洲研究院与剑桥大学、普林斯顿联合推出 MicroCoder ,从算法、数据、框架、训练经验四个维度全面升级,在最新代码测试集上取 得明显提升,并从七个方面开源了34条训练洞察。 背景:旧经验遇上新模型,为何几乎全部"失效"? 强化学习正在成为代码大模型能力提升的核心路径。以GRPO为代表的策略优化方法在数学推理任务上积累了大量成功经验,人们自然地把这 套方法迁移到了代码生成上。 然而研究者很快发现了一个现象: 用DeepCoder这类主流数据集训练最新推理模型,性能几乎没有提升 ;而同样的做法在过去版本的模型 上却有显著效果。 这背后的原因是代际性的:最新推理模型的能力已经超出了主流数据集的难度,这些题目对它而言过于简单,无法产生有效的学习。与此同 时,最新推理模型在训练中输出长度持续增长,而旧模型的输出长度稳定甚至下降,两代模型的训练动态已经截然不同,专为旧模型设计的训 练方法在新模型上不再适用。 针对这一训练瓶颈,来自微软亚洲研究院、剑桥大学和普 ...

打破代码大模型训练瓶颈:微软&剑桥&普林推出MicroCoder,算法、数据、框架、训练经验全面升级 - Reportify