并行思维

Search documents
腾讯AI Lab首创RL框架Parallel-R1,教大模型学会「并行思维」
机器之心· 2025-09-17 09:37
自从 Google Gemini 将数学奥赛的成功部分归功于「并行思维」后,如何让大模型掌握这种并行探索多种推理路径的能力,成为了学界关注的焦点。 然而,现有方法多依赖于监督微调(SFT),模型一来只能模仿预先构造的 parallel thinking 数据,难以泛化到真实的复杂任务中,其次这种方式对数据要求很高, 往往需要复杂的 data pipeline 来构造。 为解决这些难题,来自 腾讯 AI Lab 西雅图、马里兰大学、卡内基梅隆大学、北卡教堂山分校、香港城市大学、圣路易斯华盛顿大学等机构的研究者们( 第一作 者郑童是马里兰大学博士生,本工作于其在腾讯 AI Lab 西雅图实习期间完成) 首创了 Parallel-R1 框架 —— 这是第一个通过强化学习(RL)在通用数学推理任务 上教会大模型进行并行思维的框架 。该框架通过创新的「渐进式课程」与「交替式奖励」设计,成功解决了 RL 训练中的冷启动和奖励设计难题。 实验表明,Parallel-R1 不仅在多个数学基准上带来高达 8.4% 的平均准确率提升,更通过一种 "中程训练脚手架" 的策略,在 AIME25 测试中实现了 42.9% 的性能飞 跃 ...