阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题，登HuggingFace热榜

梦晨发自凹非寺量子位 | 公众号 QbitAI 推理大模型开卷新方向，阿里开源长文本深度思考模型 QwenLong-L1 ，登上HuggingFace今日热门论文第二。其32B参数版本超过OpenAI-o3-mini、Qwen3-235B-A22B等，取得与Claude-3.7-Sonnet-Thingking相当的性能。除测评分数外，论文中还详细展示了一个金融文档推理的案例。传统模型容易被无关细节误导，而QwenLong-L1 通过回溯和验证机制过滤干扰信息，正确整合关键数据。任务要求：根据文档回答问题"将优先票据的发行成本与第一年的利息支出合并计算，总资本成本是多少？" 首先出场的基础模型 DeepSeek-R1-Distill-Qwen-14B 被文档中"自2011年10月15日起每半年支付一次利息"误导，根据不相关的时间和财务信息，错误计算了第一年的利息支付。接下来，经过额外SFT的版本仍然未能解决这个问题。它在对不相关文档进行过度分析的循环中自我怀疑，最终尽了最大生成限制（10000 tokens），却没有给出最终答案。相比之下，虽然QwenLong-L1-14B最 ...