ART(Agent Reinforcement Trainer)

Search documents
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
量子位· 2025-08-07 10:13
专注于LLM+RL的科技公司OpenPipe提出 全新开源强化学习 框架——MCP·RL。 只需一个MCP Server的地址,agent就能自动发现工具、生成任务, 通过强化学习在闭环反馈中摸索出最优调用策略。 henry 发自 凹非寺 量子位 | 公众号 QbitAI 强化学习+任意一张牌,往往就是王炸。 在实测中,MCP·RL更是在 2/3的benchmark上达到或超过SOTA性能 ,效果直接拉满。 不套公式,在"做中学",这就是专属RL的power! MCP·RL的做中学 想明白MCP·RL怎么个"做中学"法,咱们有必要简单过一下传统MCP的流程: 举个例子,假如你想让agent帮自己读邮件、分类、写回复,那么你就得提前设置好整个工作流: 准备邮件数据、注册工具、写prompt规划执行顺序。 此外,你还得设置回退逻辑,以防中途崩掉。 而这只是一个发邮件的例子,功能一多,配置量指数级上升。 最关键的是——你得 知道怎么拆任务、调工具、写逻辑。 换句话说,agent就是在做你给他出的完形填空。 而你,我的朋友,要填除了空以外的所有东西。 MCP·RL的提出就是为了解决这一问题。 你只需提供MCP Ser ...