Workflow
推理模型综合测评报告 2025
2025-05-29 09:30

推理模型综合测评报告 2025 幻觉 控制 多步 推理 语⾔ 推理 逻辑 推理 数学 推理 ⽬录 CONTENT 01 推理模型发展阶段和发展因素分析 02 推理模型测评体系和结果分析 03 推理模型未来展望 推理模型发展阶段和发展因素分析 推理模型发展的前置因素①—推理时计算拓展( Inference-Compute Scaling) ⿎励⼤模型在回 答问题时更多地 "思考" 深度思维提示——拉⻓单链思考时间, 让模型多想⼀步 通过"逐步思考"等提示词的注⼊,让⼤模型⽣ 成更⻓的单链推理 多链多数表决——并⾏多条思路,投票 选其最优 通过并⾏解码,在⽣成的多个思维链中,进⾏ 多数表决或者加权投票,选择最优的⼀条输出 路径搜索——边思考边筛选,保留最佳 路径 通过搜索过往路径,多路径中筛选最优通路 难点① 固定参数 ≠ 泛化能⼒ 传统⼤模型在推理过程中依赖训练阶段 形成的静态参数。当遇到没⻅过的问题 时,⼤模型需要⼀种更加动态和灵活的 计算策略与⾃我纠错的系统能⼒。 难点② 探索资源效率更优的路径 传统Scaling Law的边际收益递减且成 本激增,⼈们需要探索⼀种资源效率利 ⽤更⾼的路径⽅式。 为什么? ...