PettingLLMs
Search documents
LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍
量子位· 2025-11-08 04:10
PettingLLMs团队 投稿 量子位 | 公众号 QbitAI 大语言模型智能体的强化学习框架, 首次实现了通用的多智能体的"群体强化"。 在大语言模型(LLM)智能体的各种任务中,已有大量研究表明在各领域下的多智能体工作流在未经训练的情况下就能相对单智能体有显著提 升。 但是现有的LLM智能体训练框架都是针对单智能体的,多智能体的"群体强化"仍是一个亟须解决的问题。 为了解决这一领域的研究痛点,来自UCSD和英特尔的研究人员,提出了新的提出通用化多智能体强化学习框架—— PettingLLMs 。支持任 意组合的 多个 LLM一起训练。 研究背景 大语言模型驱动的多智能体系统在医疗、编程、科研、具身智能等多个领域均能大幅度提升任务表现。 为训练大模型智能体,Group Relative Policy Optimization (GRPO) 已被验证为通用的有效强化学习算法。然而,当前所有针对LLM的强 化学习训练框架,包括GRPO算法本身,都局限于单智能体训练的范畴。 多智能体间的协作优化,即"群体强化"的学习机制,仍然是一个亟 待填补的空白。 GRPO算法的核心机制是,针对同一个输入(prompt), ...