Nvidia-比人类专家快2倍，斯坦福联合英伟达发布TTT-Discover：用「测试时强化学习」攻克科学难题

在技术如火如荼发展的当下，业界常常在思考一个问题：如何利用 AI 发现科学问题的新最优解？一个普遍的解法是「测试时搜索」（Test-time search），即提示一个冻结的（不更新参数的）大语言模型（LLM）进行多次尝试，这一点类似人类在做编程作业时的「猜」解法，尤其是进化搜索方法（如 AlphaEvolve），会将以往的尝试存入缓冲区，并通过人工设计、与领域相关的启发式规则生成新的提示。可是，尽管这些提示能够帮助 LLM 改进以往的解法，但 LLM 本身并不会真正提升，就像一个学生始终无法内化作业背后的新思想一样。具体来看，团队只是把单个测试问题定义为一个环境，并在其中执行强化学习（RL），因此任何标准 RL 技术原则上都可以应用。然而，需要注意的是，这里的目标与标准 RL 存在关键差异，这里的目标不是让模型在各类问题上平均表现更好，而是只为了解决眼前这一个问题，并且只需要产出一个优秀的解决方案，而不是平均产生多个良好的解决方案。团队将该方法命名为「Test-Time Training to Discover」（TTT-Discover）。为了适应上述目标，其学习目标函数和搜索子程序都旨在 ...