姚顺雨腾讯首篇论文：给AI下半场指路“上下文学习”

梦晨发自凹非寺量子位 | 公众号 QbitAI 姚顺雨，入职腾讯首席AI科学家后，参与的首个成果来了。这项研究与姚顺雨一贯的研究思路高度契合，去年8月他在OpenAI期间发表的博文《下半场》曾提出一个被反复引用的判断： AI正处在"中场休息"阶段，上半场是训练大于评估，下半场将是评估大于训练。真正重要的不是继续堆模型规模，而是让模型在真实任务、真实系统中经得起检验。 CL-bench的评测结果相当扎心，当前最强的GPT-5.1 (High)，任务解决率只有23.7%。 CL-bench ，专门用来测试大模型"从上下文中学习"的能力。换句话说，即便把解题所需的全部信息都喂给模型，它依然在超过四分之三的任务上栽了跟头。为什么需要上下文学习研究团队在博客中开门见山地指出了一个被忽视的问题：今天的前沿模型是顶级的"做题家"，能解奥数、能写代码、能通过人类需要苦读数年才能拿下的专业资格考试。但这能在考场拿满分的学生，未必能胜任真实世界的工作。博客中举了三个人类日常生活的例子：这些场景中，人类并不只依赖多年前学到的死知识，而是在实时地从眼前的上下文中学习。然而今天的语言模型并非如此。它们主要依赖 ...