端到端智能体强化学习

Search documents
月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA
机器之心· 2025-06-21 05:06
机器之心报道 编辑:杨文、泽南 昨天,月之暗面发了篇博客,介绍了一款名为 Kimi-Researcher 的自主 Agent。 这款 Agent 擅长多轮搜索和推理,平均每项任务执行 23 个推理步骤,访问超过 200 个网址。它是基于 Kimi k 系列模型的内部版本构建,并完全通过端到端智能体 强化学习进行训练,也是国内少有的基于自研模型打造的 Agent。 GitHub 链接:https://moonshotai.github.io/Kimi-Researcher/ 在「人类最后一场考试」(Humanity's Last Exam) 中,Kimi-Researcher 取得了 26.9% 的 Pass@1 成绩,创下最新的 SOTA 水平,Pass@4 准确率也达到了 40.17%。 从初始的 8.6% HLE 分数开始,Kimi-Researcher 几乎完全依靠端到端的强化学习训练将成绩提升至 26.9%,强有力地证明了端到端智能体强化学习在提升 Agent 智 能方面的巨大潜力。 Kimi-Researcher 还在多个复杂且极具挑战性的实际基准测试中表现出色。在 xbench (一款旨在将 AI ...