Workflow
让AI学着“看菜下碟”!港中大等新框架让推理长度减少90%,准确率反增17%
量子位·2025-05-30 05:01

TON团队 投稿 量子位 | 公众号 QbitAI 人类在面对简单提问时常常不假思索直接回答,只有遇到复杂难题才会认真推理。 如果AI模型也能像人一样决定"要不要思考",效率是否会大大提升? 近日,香港中文大学联合新加坡国立大学Show Lab的研究者提出了一种名为 TON(Think Or Not) 的新颖选择性推理框架,让视觉语言模型(VLM)可以自主判断是否需要显式推 理。 实验表明,在不牺牲准确率的前提下,该方法显著减少了生成的思考链长度,使模型推理过 程更高效。 △ 图1:"要不要思考"的示意 左侧示例问题简单,无需完整推理即可直接得出答案;而传统方法如GRPO仍然生成了冗长 的推理过程。右侧示例问题复杂,需要逐步推理才能得到正确答案。 TON框架令模型能够像人类一样,对简单问题直接作答(跳过冗余思考),对困难问题则给 出详尽的推理过程。 核心创新:引入"是否思考"的决策 TON框架的灵感源自人类决策过程:并非逢问必细想,而是视问题难易选择 思考或不思考 。 现有强化学习方法(如 GRPO,Group Relative Policy Optimization )强调让模型在 回答前生成完整的推理链。 ...