大语言模型上下文学习
Search documents
腾讯姚顺雨团队发布署名论文,让模型“上下文学习”真正走向现实
Yang Zi Wan Bao Wang· 2026-02-03 15:09
"即使是如今最强的语言模型,在上下文的利用方面仍然做得不好,甚至可以说是还不会利用上下文,从上下文中学习。"2月3日,腾讯混元官网技术博客 (Tencent HY Research)发表了一篇名为《从上下文中学习,远比我们想象的要难》的文章,系统的介绍了腾讯混元团队联合复旦大学的一项新研究。 这是姚顺雨加入腾讯担任首席AI科学家后团队首次发布研究成果,也是腾讯混元技术博客首次公开。这一博客的推出,旨在分享腾讯混元研究员在前沿 技术研究和实践中的探索与经验,呈现创新思路与技术洞察。 详情见:https://hy.tencent.com/research 过去几年,大语言模型快速进化,如今的前沿模型,已经是顶级的"做题家":它们能解开奥数级别的难题,能推演复杂的编程逻辑,甚至能通过那些人类 需要苦读数年才能拿下的专业资格考试。然而,在面临真实世界的任务时,模型表现还有待提升。 回看我们人类的日常工作:开发者扫过从未见过的工具文档,就能立刻开始调试代码;玩家拿起新游戏的规则书,在实战中边玩边学;科学家从复杂的实 验日志中筛选数据,推导出新的结论和定律。这些场景中,人类并不只依赖多年前学到的"死知识",而是在实时地从 ...
刚刚,腾讯姚顺雨团队首个成果发布,揭示大模型真正瓶颈
3 6 Ke· 2026-02-03 14:26
智东西2月3日报道,刚刚,腾讯混元官网正式上线姚顺雨团队最新成果,发布了专门评测大语言模型能否从上下文(Context)中学习新知识并正确应用 的基准CL-bench。 这是姚顺雨加入腾讯混元担任首席AI科学家后,其团队首次发布研究成果,也是腾讯混元技术博客首次公开。 腾讯混元技术博客及致谢部分 大模型与人类在解决问题时关键区别为,大模型只能依赖预训练阶段的静态记忆,而人可以实时根据现场情况完成任务。腾讯混元研究团队实测发现,当 前的SOTA模型几乎都不会从上下文中学习,表现最好的GPT-5.1(high)任务成功率也仅有23.7%。 | All | OpenAl | Anthropic | Google | Alibaba | DeepSeek Moonshot | ByteDance | Tencent | All | High Reasoning | Low/No Reasoning | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | Overall | | | Domain Knowledge ...