Workflow
Test Time Scaling(TTS)技术
icon
Search documents
告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升
机器之心· 2025-09-02 06:32
大语言模型通过 CoT 已具备强大的数学推理能力,而 Beam Search、DVTS 等测试时扩展(Test-Time Scaling, TTS)方法可通过分配额外计算资源进 一步提升准确性。然而,现有方法存在两大关键缺陷:路径同质化(推理路径趋同)和中间结果利用不足(大量高质量推理分支被丢弃)。 为解决这些问题,华为诺亚方舟实验室联合香港中文大学等机构的研究人员提出逐步推理检查点分析(SRCA)框架 —— 在推理步骤间引入 "检查点",并 集成两大核心策略:(1)答案聚类搜索(Answer-Clustered Search):根据中间检查点答案对推理路径进行分组,在保证质量的同时维持路径多样性; (2)检查点候选增强(Checkpoint Candidate Augmentation):利用所有中间答案辅助最终决策。 实验结果表明,在多个数学数据集上,如 MATH500 和 OlympiadBench,SRCA 相较于现有 TTS 方法,推理准确性均有提升。该论文已被 EMNLP 2025 接收。 论文题目:Stepwise Reasoning Checkpoint Analysis: A Test Ti ...