Workflow
仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3
机器之心·2025-08-24 04:02

传统强化学习(RL)在有标准答案的指令遵循任务(如数学、代码)上已趋成熟,但在开放式的创意写作领域却因缺乏客观对错而举步维 艰。如何让 RL 突破「可验证奖励」的边界?蚂蚁技术研究院联合浙江大学开源全新强化学习范式 Rubicon,通过构建业界最大规模的 10,000+ 条「评分标尺」,成功将强化学习的应用范围拓展至更广阔的主观任务领域。用 5000 样本即超越 671B 模型,让 AI 告别「机械 味」。 自 OpenAI o1 系列模型问世以来,基于「 可验证奖励 」的强化学习(RLVR)已成为提升大模型推理能力的主流。通过海量的数学题、代码题进行训练,AI 在客 观对错分明的领域取得了巨大成功。 然而,这也暴露了当前技术路线的瓶颈:当面对没有标准答案的开放性、主观性任务时,AI 怎么办? 如何让 AI 写出情感充沛的文字,而不是「AI 味」十足的模板?如何让它进行有深度的创意构思,而不是简单的信息罗列?这正是当前 AI 迈向更高层次智能需要 破解的「 灵魂难题 」。 基于此,蚂蚁技术研究院联合浙江大学,正式开源其最新研究成果 ——Rubicon-preview 模型,并推出一套名为 「 基于评分标尺的强 ...