Workflow
阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜
量子位·2025-05-27 05:58

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 推理大模型开卷新方向,阿里开源 长文本深度思考 模型 QwenLong-L1 ,登上HuggingFace今日热门论文第二。 其32B参数版本超过OpenAI-o3-mini、Qwen3-235B-A22B等,取得与Claude-3.7-Sonnet-Thingking相当的性能。 除测评分数外,论文中还详细展示了一个金融文档推理的案例。传统模型容易被无关细节误导,而QwenLong-L1 通过回溯和验证机制过滤干 扰信息,正确整合关键数据 。 任务要求:根据文档回答问题"将优先票据的发行成本与第一年的利息支出合并计算,总资本成本是多少?" 首先出场的基础模型 DeepSeek-R1-Distill-Qwen-14B 被文档中"自2011年10月15日起每半年支付一次利息"误导,根据不相关的时间和财 务信息, 错误计算了第一年的利息支付 。 接下来, 经过额外SFT的版本仍然未能解决这个问题。 它在对不相关文档进行过度分析的循环中自我怀疑,最终尽了最大生成限制(10000 tokens),却没有给出最终答案。 相比之下,虽然QwenLong-L1-14B最 ...