斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元
NvidiaNvidia(US:NVDA) 3 6 Ke·2026-01-27 09:17

大模型持续学习,又有新进展! 来自斯坦福、英伟达等研究机构的最新研究,针对解决开放的科学问题,提出全新思路—— Test-Time Training to Discover (TTT-Discover)。 其基于开源模型gpt-oss-120b,在多个领域达到SOTA,优于人类专家与闭源前沿模型。 该方法不再沿用"测试时缩放"(Test-time Scaling)只通过Prompt调度冻结模型的做法。 而是在测试阶段,针对单个具体问题,引入强化学习(RL)对模型权重进行更新。 这种"测试时训练"使模型能够从该问题的失败尝试中实时获取经验,更新参数,实现模型能力的定向进化。 数学:给出了Erdős最小重叠问题的新界,并提出了一条自相关不等式 测试时进行强化学习 总的来说,这篇论文的核心思路是在测试时进行强化学习 (Reinforcement Learning at Test Time) ,并主要体现在两点: 1.学习目标(Learning Objective) 不同于传统强化学习侧重于提升所有任务的"平均奖励"以实现泛化,TTT-Discover采用熵目标函数(Entropic Objective)。 Kern ...