Workflow
成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力
机器之心·2025-05-29 04:53

方法 无需搜索的强化学习框架 本文作者来自通义实验室和北京大学,第一作者是北京大学智能学院博士生孙浩,主要研究方向是RAG和Agent,在 NeurIPS、ACL、EMNLP 等国际顶级会议上 发表多篇论文,师从张岩教授。该工作在阿里巴巴通义实验室RAG团队实习期间完成。 信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要,近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力,但现有方法在训练过程中 面临两大核心挑战: 为了解决这些问题,我们提出了 ZeroSearch 框架 —— 无需真实搜索,直接用大语言模型模拟搜索引擎,并引入课程学习策略,在显著降低 88% 成本的同时,在 多项任务上性能超过依赖真实搜索引擎的方法。 传统训练方法需要在 Rollout 阶段频繁与真实搜索引擎交互,产生大量 API 开销,而大语言模型在预训练阶段积累了丰富的世界知识,具备根据 query 返回相关信 息的能力,因此 ZeroSearch 创新性地引入大语言模型作为模拟搜索引擎(Simulation LLM),无需真实搜索,即可为策略模型生成检索文档,大幅降低了训练成 本: $$\oper ...