Workflow
RewardAnything
icon
Search documents
北大腾讯突破奖励模型瓶颈!让AI理解人类偏好,泛化能力比肩GPT-4.1
量子位· 2025-06-26 02:11
RA团队 发自 凹非寺 量子位 | 公众号 QbitAI 总是"死记硬背""知其然不知其所以然"? 奖励模型 训练也形成了学生选择标准答案的学习模式,陷入诸如"长回答=好回答""好格式=好答案"等错误规律之中。 北京大学知识计算实验室联合腾讯微信模式识别中心、William&Mary、西湖大学等机构提出的 RewardAnything 突破了这一瓶颈 ——通过让奖励模型直接理解自然语言描述的评判原则,实现了从"死记硬背"到"融会贯通"的范式跃迁。 RewardAnything降低了传统模式针对不同场景需要收集偏好数据训练奖励模型再进行RL的高昂成本,能够直接利用自然语言作为 RLHF的标准。 其作为奖励模型,仅需一句话描述的准则即可刷新传统Benchmark的SOTA,在RABench上展示出了与GPT-4.1等顶尖模型相媲美的 原则跟随能力与泛化能力。 | Model | Domains | | | | | Principle Categories | | | Overall | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- ...