ICLR 2026 | 数据缺少标注,RL还能稳定诱导模型推理吗?Co-rewarding提供自监督RL学习方案!
机器之心·2026-02-19 12:07

自我奖励策略训练模型为什么会导致训练崩溃? 论文标题: Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models 论文链接: https://openreview.net/forum?id=fDk95XPsCU 代码链接: https://github.com/bigai-ai/LIFT-humanoid Huggingface 链接: https://huggingface.co/collections/TMLR-Group-HF/co-rewarding 本文来自香港浸会大学和上海交通大学的可信机器学习和推理组,已被 ICLR 2026 接收。 目前,RLVR(Reinforcement Learning with Verifiable Rewards)已成为诱导大语言模型推理能力的主流技术路线。然而,RLVR 需要高质量标注数据 来监督奖励获取,这一点是其可扩展性上的主要瓶颈。 一旦走向不需要标注数据的 "自奖励(Self-rewarding)" 强化学习训练,模型往往会迅速陷入训练崩 ...