腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入
Youtu-Agent 团队 投稿 量子位 | 公众号 QbitAI 让智能体自己摸索新方法,还模仿自己的成功经验。 腾讯优图实验室 开源 强化学习算法—— SPEAR (Self-imitation with Progressive Exploration for Agentic Reinforcement Learning)。 主打一个让AI自学成才! 该算法首次让大语言模型(LLM)驱动的智能体在无需大量专家示范的情况下,通过"自我模仿+渐进探索"实现熵稳定的学习过程。 在ALFWorld、WebShop、AIME24/25等基准上 平均提升16%以上 ,刷新业界最佳成绩,为长周期、稀疏奖励场景下的智能体训练提供了 即插即用 的新范式。 △ SPEAR算法核心概念示意图 简单来说,SPEAR算法既能大胆尝试新方法,又能靠谱地用已经验证过的有效策略,不用走极端。 下面具体来看。 传统自我模仿学习是什么? 想象一位新手厨师: 自我模仿学习(Self-Imitation Learning,SIL)就是把这套"只抄自己最好的作业"的思路搬进强化学习: 自我模仿 2.0:自己产出的"神操作"自己学 熵控崩溃终结者 ...