比人类专家快2倍，斯坦福联合英伟达发布TTT-Discover：用「测试时强化学习」攻克科学难题

机器之心编辑部在技术如火如荼发展的当下，业界常常在思考一个问题：如何利用 AI 发现科学问题的新最优解？一个普遍的解法是「测试时搜索」（Test-time search），即提示一个冻结的（不更新参数的）大语言模型（LLM）进行多次尝试，这一点类似人类在做编程作业时的「猜」解法，尤其是进化搜索方法（如 AlphaEvolve），会将以往的尝试存入缓冲区，并通过人工设计、与领域相关的启发式规则生成新的提示。可是，尽管这些提示能够帮助 LLM 改进以往的解法，但 LLM 本身并不会真正提升，就像一个学生始终无法内化作业背后的新思想一样。实际上，能够让 LLM 真正进步的最直接方式是学习。尽管「学习」和「搜索」都能随着算力扩展而良好地增长，但在 AI 的发展历史中，对于围棋、蛋白质折叠等这类困难问题，「学习」往往最终超越了「搜索」。因为，科学发现本质是：超出训练数据与人类现有知识的 out-of-distribution 问题。为此，斯坦福大学、英伟达等机构联合提出一种新方法：在测试时进行强化学习（RL），即让 LLM 在尝试解决特定测试问题的过程中持续训练自己。论文链接：https://w ...