Workflow
Software and Programming Services
icon
Search documents
鲁棒强化学习赋能AI编程!破局企业数据噪声难题,同等算力训出更好模型 | 上交大&腾讯CodeBuddy
量子位· 2026-02-16 11:00
GAPO团队 投稿 量子位 | 公众号 QbitAI 程序员们又能少掉头发了! 新研究通过过滤掉训练中的噪声和异常值,显著提升代码大模型在实际编辑任务中的准确性和效率。 在AI辅助编程成为软件开发核心生产力的今天,大语言模型 (LLMs) 已深度融入代码编辑、调试与优化全流程。 然而,当企业试图用 真实复杂用户环境中采集的数据 开展强化学习 (RL) 训练时,一个棘手的实际问题浮出水面:复杂上下文 (context) 导致大模型的输出答案频繁出现异常内容,即rollout噪声更普遍,使得reward出现异常值 (outliers) ,直接造成优势值 (advantage) 估计不准确,严重拖累强化学习效果。 上海交通大学、腾讯CodeBuddy等团队联合提出的 Group Adaptive Policy Optimization(GAPO) 方法,精准直击这一产业落地关键 瓶颈,为代码LLM的工业化训练提供了兼具科研创新性与工程实用性的突破方案,引发AI科研界与产业界广泛关注。 真实场景的核心梗阻:复杂上下文→rollout噪声→优势估计失真 代码编辑的核心难点在于,真实用户场景的输入提示绝非简单的代码片段, ...