只需1/4预算，性能反超基线：阿里高德提出Tree-GRPO，高效破解智能体RL难题

对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力，而在需要与开放世界交互的智能体任务中，仍面临「两朵乌云」：高昂的 Rollout 预算（成千上万的 Token 与高成本的工具调用）和极其稀疏的「只看结果」的奖励信号。来自阿里高德的一篇最新研究论文提出了面向 Agent RL 的 Tree-GRPO 方法，将独立的链式采样改造为智能体步骤级的树搜索。该方法通过共享前缀、一次扩展多个分支，在相同预算下获得更丰富的有效轨迹；更重要的是，仅凭最终奖励即可沿树结构回溯出过程中的偏好信号，等价于隐式的步骤级偏好学习。在 11 个知识密集型、网络搜索问答任务数据集中，Tree-GRPO 在多种模型规模上更省预算、更高表现，显著优于链式 RL 方法，甚至能在 1/4 预算的情况下超越 GRPO 基线，为 Agentic RL 的高效训练提供了新的解决思路。论文标题：Tree Search for LLM Agent Reinforcement Learning 以「智能体步骤」为节点进行树搜索树方法相较链方法的区别与优势论文地址： https://arxiv.org/abs/2509.2 ...