Workflow
Attention 机制
icon
Search documents
3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化
机器之心· 2025-11-10 04:40
开源地址: https://github.com/alibaba/ROLL 接下来详细了解一下「3A」协同优化框架是如何推动(RL4LLM)迈向新范式的。 机器之心发布 机器之心编辑部 近期, 阿里巴巴 ROLL 团队(淘天未来生活实验室与阿里巴巴智能引擎团队)联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构 (Asynchronous Training)、Asymmetric PPO(AsyPPO)与 Attention 机制(Attention-based Reasoning Rhythm),「3A」彼此间并非孤立的技术堆砌,而是深度耦 合,致力于共同推动「强化学习用于大语言模型(RL4LLM)」迈向高效、精细与可解释的新范式。 具体来看, ROLL Flash 以解耦为核心,通过「细粒度并行」与「采样 - 训练解耦」两大原则, 将生成、环境交互、奖励计算与模型训练彻底流水线化,实现全 链路异步执行,显著提升 GPU 利用率,同时通过「异步比」机制保障训练稳定性,集成主流 Off-policy 算法等,使得异步训练效果能与同步训练相媲美。 算法架构层面, AsyPPO 首次系统 ...