Workflow
⽆需任何监督信号!自博弈机制让深度搜索Agent实现自我进化
机器之心·2025-11-15 01:37

近期,搜索型 Agent 的热度持续攀升⸺从 OpenAI 的 Deep Research 到各类学术探索,「 多轮检索 + ⼯具调⽤ + 深度推理 」的新范式正在深刻改变 AI 获取和整合 信息的⽅式。但如何让这些 Agent 能⼒持续提升,达到接近⼈类的表现⽔平,仍然是⼀个核⼼挑战。 ⽬前主流的训练⽅法是可验证奖励强化学习(RLVR):给定任务题⽬和标准答案,⽤最终预测结果的正确性作为奖励信号来训练 Agent。然⽽,这种⽅法⾯临着 ⼀个根本性的瓶颈: 要让 Agent 变强,需要大量「高 质量任务 + 可验证答案 」的数据支撑 。 而现实情况 是: 那么,是否存在⼀种⽅法,能让 Agent 在 无需人工标注 的情况下, 通过与外部真实世界的交互,自主生成训练任务、实现自我驱动的进化 ? 人工标注 :成本⾼昂,特别是跨⼯具链的标注数据难以复⽤; 离线合成 :难以把控合成质量,仍依赖⼈⼯校验,且验证成本居⾼不下; 扩展困境 :即便有⾜够的离线合成任务,如何让训练难度⾃适应地跟随 Agent 能⼒提升? 论⽂标题:Search Self-Play: Pushing the Frontier of Agent ...