搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
机器之心·2025-06-17 00:10
当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。但在真实实践中,搜索智能体的强化学习训练并未展现 出预期的稳定优势。一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。 我们(UIUC & Amazon)提出的 s3(Search-Select-Serve) 是一种 训练效率极高、结构松耦合、生成效果导向的 RL 范式 。该方法使用名为 Gain Beyond RAG (GBR) 的奖励函数,衡量搜索器是否真的为生成带来了有效提升。实验表明,s3 在使用仅 2.4k 训练样本 的情况下,便在多个领域问答任务中超越了数据规模大百 倍的强基线(如 Search-R1、DeepRetrieval)。 论文标题:s3: You Don't Need That Much Data to Train a Search Agent via RL 研究动机 RAG 的发展轨迹:从静态检索到 Agentic 策略 b. Search-R1 :将检索与生成联合建模,以最终答案是否 Exa ...