刚刚,腾讯姚顺雨团队首个成果发布,揭示大模型真正瓶颈
TENCENTTENCENT(HK:00700) 3 6 Ke·2026-02-03 14:26

智东西2月3日报道,刚刚,腾讯混元官网正式上线姚顺雨团队最新成果,发布了专门评测大语言模型能否从上下文(Context)中学习新知识并正确应用 的基准CL-bench。 这是姚顺雨加入腾讯混元担任首席AI科学家后,其团队首次发布研究成果,也是腾讯混元技术博客首次公开。 腾讯混元技术博客及致谢部分 大模型与人类在解决问题时关键区别为,大模型只能依赖预训练阶段的静态记忆,而人可以实时根据现场情况完成任务。腾讯混元研究团队实测发现,当 前的SOTA模型几乎都不会从上下文中学习,表现最好的GPT-5.1(high)任务成功率也仅有23.7%。 | All | OpenAl | Anthropic | Google | Alibaba | DeepSeek Moonshot | ByteDance | Tencent | All | High Reasoning | Low/No Reasoning | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | Overall | | | Domain Knowledge ...