Workflow
强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B
BABABABA(US:BABA) 机器之心·2025-05-27 09:54

机器之心发布 机器之心编辑部 上下文长度达 13 万 token,适用于多段文档综合分析、金融、法律、科研等复杂领域任务。 近期的推理大模型(LRMs)通过强化学习(RL)展现出强大的推理能力,但这些改进主要体现在 短上下文 推理任务中。相比之下,如何通过强化学习扩展 LRMs 以有效处理和推理 长上下文 输入,仍然是一个尚未解决的关键挑战。 来自阿里巴巴通义实验室的团队首先形式化定义 长上下文推理强化学习 范式,并识别出其中的两个核心挑战: 次优的训练效率与不稳定的优化过程 。 针对这些问题,团队提出 QwenLong-L1 长上下文推理强化学习框架,通过渐进式上下文扩展策略逐步提升模型在长上下文推理任务上的表现,最终在多个 长文档问答 benchmarks 上,QwenLong-L1-32B 表现卓越,不仅 超越 OpenAI-o3-mini 、 Qwen3-235B-A22B 等旗舰模型, 更与 Claude-3.7-Sonnet- Thinking 性能对标 。 1. 定义长上下文推理强化学习范式 基于 渐进式上下文扩展技术 和 混合奖励机制 ,QwenLong-L1 通过强化学习实现了从短文本到长文 ...