ICLR 2026 | 数据缺少标注，RL还能稳定诱导模型推理吗？Co-rewarding提供自监督RL学习方案！

自我奖励策略训练模型为什么会导致训练崩溃？论文标题： Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models 论文链接： https://openreview.net/forum?id=fDk95XPsCU 代码链接： https://github.com/bigai-ai/LIFT-humanoid Huggingface 链接： https://huggingface.co/collections/TMLR-Group-HF/co-rewarding 本文来自香港浸会大学和上海交通大学的可信机器学习和推理组，已被 ICLR 2026 接收。目前，RLVR（Reinforcement Learning with Verifiable Rewards）已成为诱导大语言模型推理能力的主流技术路线。然而，RLVR 需要高质量标注数据来监督奖励获取，这一点是其可扩展性上的主要瓶颈。一旦走向不需要标注数据的 "自奖励（Self-rewarding）" 强化学习训练，模型往往会迅速陷入训练崩 ...