可验证的过程奖励

Search documents
攻克AI过度思考难题!美团新研究让通过“可验证”过程奖励激活LRM的高效推理
Sou Hu Cai Jing· 2025-09-11 22:23
美团搜推Agentic System X (AsX) 团队 投稿 量子位 | 公众号 QbitAI | Find the number of integer values of k in the closed interval [-500,500] for which | Correct Answer: 501 | | --- | --- | | the equation log(kx)=2log(x+2) has exactly one real solution. | | | .. | | | Overthinking: 8734 tokens Reasoning | | | Okay, so I have this problem: I need to find the number of integer values of \\( k \\) | | | in the closed interval \\([-500, 500]\\) for which the equation \\( \\log(kx) = 2\\log(x | 1. Problem Restatement | | + 2) \\ ...
攻克AI过度思考难题!美团新研究让通过“可验证”过程奖励激活LRM的高效推理
量子位· 2025-09-11 10:19
美团搜推Agentic System X (AsX) 团队 投稿 量子位 | 公众号 QbitAI LRM通过简单却有效的RLVR范式,培养了强大的CoT推理能力,但伴随而来的冗长的输出内容,不仅显著增加推理开销,还会影响服务的吞 吐量,这种消磨用户耐心的现象被称为"过度思考"问题。 针对这一缺陷,来自美团等机构的研究团队提出 可验证的过程奖励机制(VSRM) , 鼓励CoT中的"有效步骤",惩戒"无效步骤",最大限 度保持性能的同时,实现高效推理 。 通过在数学任务上的实验显示,在多个常用benchmark上, VSRM加持的后训练使得不同尺度的模型实现了输出长度的大幅缩减 ,甚至在部 分情况下提升了模型表现。 过度思考问题的本质 此前的工作将过度思考问题的现象总结为:对于一个问题,模型倾向于给出多种不同的解答,特别简单的问题。在这一认识的基础上,作者团 队更进一步,对现有LRM在MATH-500上做出的回复进行了深入的case study。 | Find the number of integer values of k in the closed interval [-500,500] for whic ...