Workflow
奖励是假的,能让Qwen提升25%性能却是真的!
量子位·2025-05-29 01:08

鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 即使RLVR (可验证奖励强化学习) 使用错误的奖励信号,Qwen性能也能得到显著提升? 甚至还和真实奖励相差无几。 自从RLVR 被DeepSeek-R1带火,RL推理研究层出不穷,走进了蜜月期。 这不,来自华盛顿大学的一群博士生来火上浇油了—— 使用Qwen模型 (尤其是数学版本) ,对虚假奖励进行 RLVR ,仍然可以将MATH-500的绝对准确率显著提升约 25% 。 团队实验发现: RLVR通过激活预训练中的推理能力来提升性能,但 不考虑奖励信号的正确性 。 这彻底颠覆了既往大家对RLVR的认知,原来那些年在虚假奖励上踩过的坑,还真能实现弯道超车? X上的网友们纷纷表示,强烈建议每位RLVR研究员都来读一读,尤其是那些围绕Qwen模型精心构造奖励函数的研究员们,该瑟瑟发抖了…… Qwen自家的研究员Binyuan Hui也在评论区现身: 具体啥情况?下面我们娓娓道来。 虚假奖励带来显著的RLVR增益 此前已有研究证明,RLVR在提升语言模型推理能力上非常有效,核心思想是 利用可自动验证的奖励信号优化 。 普遍研究都默认优化效果依赖奖励的正确性,但 ...