Workflow
Reward Modeling
icon
Search documents
奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式
机器之心· 2025-07-10 04:26
回顾大模型(LLM)的成功之路,是利用 Next Token Prediction 的形式统一了所有任务,解决了任务形式不同导致无法泛化的难题。而奖励模型(RM)的设计仍 然在重蹈传统方案的老路,即为特定场景标注偏好数据,训特定场景的 RM。因此,是否可以仿照 LLM 的成功之路,重新设计 RM 的训练范式呢?消除 RM 的 "打分标准",就像消除 LLM 的 "任务形式" 一样,找到一个 脱离于 "打分标准" 之外的更本质的优化目标函数 来进行预训练 ,从而达到真正的通用性。 机器之心发布 机器之心编辑部 在大语言模型后训练阶段,强化学习已成为提升模型能力、对齐人类偏好,并有望迈向 AGI 的核心方法。然而,奖励模型的设计与训练始终是制约后训练效果的 关键瓶颈。 目前,主流的奖励建模方法包括 " 基于偏好的奖励建模 "(Preference-based Reward Modeling)和 " 基于规则的验证 "(Rule-based Verifier)两种方法。 其中,"基于偏好的奖励建模" 一般利用标注的偏好对数据来训练奖励模型,这种方法存在着诸多局限。首先,高质量偏好数据的 获取成本极高,难以大规模扩展 ...