AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
机器之心·2026-01-14 05:37

作者: 上交博士,在腾讯codebuddy 实习,发表一作顶会顶刊论文10篇(含best paper 等),开源PFLlib等明星项目,获得社区赞誉。主要研究AI强化 学习、AI合成数据、Agent 记忆等。 在 AI 辅助 Coding 技术快速发展的背景下,大语言模型(LLMs)虽显著提升了软件开发效率,但开源的 LLMs 生成的代码依旧存在运行时错误,增加了 开发者调试成本。 现有基于偏好优化的改进方法,多依赖「通过 / 失败」二元信号构建训练数据,难以知晓「错在哪」,也忽视了模型能力在训练时的动态变化特性。 针对此缺口,在腾讯 CodeBuddy 实习期间,我们提出自适应渐进式偏好优化方法(AP2O),并构建 AP2O-Coder 框架。该方法借鉴人类的「按题型高 效刷题」经验出发,通过「考试 - 分析 - 纠错 - 小测」的系统性流程提升模型代码纠错能力,在多款主流开源模型上实现最高 3% 的 pass@k 性能提 升,同时降低训练数据需求量。 论文标题:AP2O-Coder: Adaptively Progressive Preference Optimization for Reducing C ...