4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
量子位·2025-07-09 01:18
Polaris团队 投稿 量子位 | 公众号 QbitAI 4B模型的数学推理能力和顶尖商业大模型差在哪里? 香港大学NLP团队联合字节跳动Seed、复旦大学发布名为 Polaris 的强化学习训练配方: 通过Scaling RL,Polaris让4B模型的数学推理能力(AIME25上取得79.4,AIME24上取得81.2) 超越了一众商业大模型 ,如Seed-1.5- thinking、Claude-4-Opus和o3-mini-high(25/01/31)。 并且,Polaris-4B的轻量化允许在消费级显卡上部署。 详细的blog、训练数据、模型和代码都已 全部开源 ,链接可见文末。 围绕待训练模型进行参数配置 之前的RL训练配方,如DeepScaleR,已经展示了Scaling RL在较弱基模型上强大的效果。 但对于目前最前沿的开源模型(如Qwen3),Scaling RL是否也能复现如此显著的提升呢? Polaris的研究团队给出了明确回答:可以! 具体来说,Polaris通过仅仅700步的RL训练,成功地 让Qwen3-4B在数学推理任务上接近了其235B版本的表现 。 只要方法得当,RL还存在 ...