腾讯开源强化学习新算法！让智能体无需专家示范就“自学成才”，还即插即用零成本接入

Youtu-Agent 团队投稿量子位 | 公众号 QbitAI 让智能体自己摸索新方法，还模仿自己的成功经验。腾讯优图实验室开源强化学习算法—— SPEAR （Self-imitation with Progressive Exploration for Agentic Reinforcement Learning）。主打一个让AI自学成才！该算法首次让大语言模型（LLM）驱动的智能体在无需大量专家示范的情况下，通过"自我模仿+渐进探索"实现熵稳定的学习过程。在ALFWorld、WebShop、AIME24/25等基准上平均提升16%以上，刷新业界最佳成绩，为长周期、稀疏奖励场景下的智能体训练提供了即插即用的新范式。 △ SPEAR算法核心概念示意图简单来说，SPEAR算法既能大胆尝试新方法，又能靠谱地用已经验证过的有效策略，不用走极端。下面具体来看。传统自我模仿学习是什么？想象一位新手厨师：自我模仿学习（Self-Imitation Learning，SIL）就是把这套"只抄自己最好的作业"的思路搬进强化学习：自我模仿 2.0：自己产出的"神操作"自己学熵控崩溃终结者 ...