Workflow
NeurIPS 2025 | 中科大、港中深、通义千问联合发布CoRT:仅30个样本教会大模型高效推理,token消耗降低50%
机器之心·2025-11-12 13:23

近年来,以 OpenAI-o1、Qwen3、DeepSeek-R1 为代表的大型推理模型(LRMs)在复杂推理任务上取得了惊人进展,它们能够像人类一样进行长链条的思考、反 思和探索。然而,这些模型在面对精确的数学计算时,仍然会「心有余而力不足」,常常出现效率低下甚至算错的问题。 那么,如何 让大模型学会「何时」以及「如何」高效地使用工具,将自身的抽象推理能力与工具的精确计算能力完美结合? 来自 中国科学技术大学、香港中文大学(深圳)、通义千问的联合研究团队 给出了他们的答案: CoRT (Code-Optimized Reasoning Training) —— 一个旨在教会 大型语言模型高效利用代码工具进行推理的后训练(post-training)框架。 该框架通过创新的数据合成策略和多阶段训练流程,显著提升了模型的数学推理能力和 效率。 一个直观的解决方案, 是为模型配备代码解释器(Code Interpreter)等计算工具。 但这引入了一个更深层次的挑战,也是当前领域面临的关键瓶颈: 1. 认知冲突: 模型内部基于概率的、模糊的「思考」,与外部工具返回的确定性的、精确的「知识」之间存在冲突,导致模型陷 ...