NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路
机器之心·2025-11-29 09:33
该工作的第一作者为香港大学计算机系博士生赵学亮。蚂蚁武威、关健为共同贡献者。 在 R1 与 O1 引领「深度推理」浪潮之后,大模型推理领域正迎来新的分叉点! 大模型推理的爆发,实际源于 scaling 范式的转变:从 train-time scaling 到 test-time scaling(TTS),即将更多的算力消耗部署在 inference 阶段。 典型的实现是以 DeepSeek r1 为代表的 long CoT 方法:通过增加思维链的长度来获得答案精度的提升。那么 long CoT 是 TTS 的唯一实现吗? 与传统 token-by-token 式的 CoT 不同,DynaAct 提出以 Action Space Optimization 为核心的 TTS 范式:在每一步推理中动态构建可选动作集合, 并通过学习算法从中选择最优动作,从而让推理路径更高效、更具结构化。 针对这个问题,来自蚂蚁和香港大学自然语言组的研究团队(后简称「团队」)给出了 TTS 的另一种思路: 让模型不仅「想得久」,更要「想得准」。 在这一思路下,团队提出了 DynaAct,该工作已经被 NeurIPS 2025 接收。 ...