自进化Agent新突破,Meta推出Dr.Zero:自发涌现复杂推理、搜索能力
自进化智能体(Agent)又迎新进展。 近日,Meta 超级智能实验室与伊利诺伊大学厄巴纳-香槟分校(UIUC)联合提出了Dr. Zero 框架,使 Agent 能在零训练数据条件下实现高效自我进化。 据介绍,该框架解决了多轮搜索 Agent 在无数据自我进化中面临的"问题多样性受限"、"多步推理与工具使用仍需大量计算资源"等难题。 研究团队创新性地提出了"跳步分组相对策略优化"(HRPO)方法,通过聚类结构相似的问题来构建鲁棒的群组级基准,在保证训练有效性的同时,避免 了自我进化过程中昂贵的嵌套采样需求。 实验显示,该框架在复杂问答任务中,无需人工标注数据,性能即超越全监督基线高达 14.1%,证明了搜索增强模型在高级推理任务中的强大潜力。 同时,在没有任何人类标注数据的情况下,通过合理的架构设计与奖励机制,智能体完全能够自发涌现出复杂的推理与搜索能力。这为未来解决数据稀缺 环境下的模型训练问题提供了新的思路。 AI自我进化的数据稀缺难题 训练一个强大的模型,通常需要海量且高质量的人工标注数据。尤其是在涉及复杂推理、多步搜索的任务中,获取精准的标注数据不仅耗时,而且成本极 其高昂。虽然"自适应语言智能体"的 ...