大模型元思考

Search documents
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化
机器之心· 2025-07-03 03:26
本文第一作者为上海交通大学计算机科学四年级博士生万梓煜,主要研究方向为强化学习、基础模型的复杂推理,通讯作者为上海交通大学人工智能学院温颖副 教授和上海人工智能实验室胡舒悦老师。团队其他成员包括来自英属哥伦比亚大学的共同第一作者李云想、Mark Schmidt 教授,伦敦大学学院的宋研、杨林易和 汪军教授,上海交通大学的温潇雨,王翰竟和张伟楠教授。 引言 最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model )+ PPO,③ 可验证奖励 (Verifiable Reward)+ GRPO(DeepSeekR1)。然而,大模型何时产生 "顿悟(AhaMoment)" 的机理仍未明晰。近期多 项研究提出推理模式(reasoning pattern)对于推理能力的重要作用。类似的,本研究认为 大模型复杂推理的能力强弱本质在于元思维能力的强弱。 所谓 "元思维" (meta-thinking),即监控、评估和控制自身的推理过程,以实现更具适应性和有效性的问题解决,是智 ...