Workflow
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
量子位·2025-05-17 03:50

闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 强化学习(RL)+真实搜索引擎,可以有效提升大模型检索-推理能力。 但问题来了: 一方面,搜索引擎返回的文档质量难以预测,给训练过程带来了噪音和不稳定性。 另一方面,RL训练需要频繁部署,会产生大量API开销,严重限制可扩展性。 现在,来自阿里通义实验室的解决方案公开了:开源 ZeroSearch ,提供了一种 无需与真实搜索引擎交互 的强化学习框架。 实验表明,ZeroSearch仅需3B参数的LLM作为检索模块,即可有效提升搜索能力,节省了高昂API成本。 ZeroSearch让LLM"自给自足"实现搜索进化 研究团队用 模拟搜索环境+渐进式抗噪训练 ,让LLM不再依赖昂贵搜索引擎API。 轻量微调:把LLM变成"搜索引擎模拟器" 用少量标注数据微调LLM,使其能按指令生成两种文档—— 有用结果 和 噪声干扰 。 通过收集与真实搜索引擎交互的数据,ZeroSearch对LLM进行轻量级监督微调。 在这个过程中,模型学会生成与真实搜索引擎风格相似的文档,同时能够根据提示词生成相关或噪声文档。 这种能力使得模型在训练过程中能够动态调整文档质量,从而更好地模 ...