Workflow
Deep research
icon
Search documents
27岁掌舵腾讯大模型,非典型天才定义AI下半场
Sou Hu Cai Jing· 2025-12-23 17:06
这是姚顺雨的十年。从17岁到27岁,他用十年活成了大众眼中"学霸流"小说中的男主模板。但在他看 来,他想做的就两条线——简单通用的方法、有实际价值的任务。"这些任务往往是如何在真实数字世 界创造新的价值。这是一块处女地,是一个巨大的宝藏。我只是恰好挖掘到了一些东西。"姚顺雨说。 2015年,以安徽省理科第三名的成绩考入清华大学交叉信息研究院"姚班";2019年,远赴美国普林斯顿 大学深造,专攻自然语言处理与强化学习;2024年,加入OpenAI,为其首批智能体产品Operator、Deep research的开发作出了核心贡献;2025年,出任腾讯首席AI科学家,同时兼任AI Infra部及大语言模型部 负责人,掌舵腾讯AI基础设施与大模型研发的核心业务。 在姚顺雨刷屏的这几天,我们接收到了不少关于他的信息:16岁拿到全国信息学奥林匹克竞赛(NOI) 银牌;在高考考场上睡着了,丢了十几分,错失"状元";参与联合创办清华大学学生说唱社,在网易云 发布了20余首说唱作品;以最年轻入选者身份跻身《麻省理工科技评论》"35岁以下科技创新35人"中国 区名单…… 看起来像一个"对抗路"天才,但姚顺雨本人不这么想,回望来 ...
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 12:01
曲凯: 今天我们请来了国内强化学习 (RL) 领域的专家吴翼,吴翼目前是清华大学交叉信息研究院助理教授,他曾经在 OpenAI 工作过,算是国内最早研究强化学 习的人之一,我们今天就争取一起把 RL 这个话题给大家聊透。 首先吴翼能不能简单解释一下,到底什么是 RL? 因此,RL 其实更通用一些,它的逻辑和我们在真实生活中解决问题的逻辑非常接近。比如我要去美国出差,只要最后能顺利往返,中间怎么去机场、选什么航 司、具体坐哪个航班都是开放的。 但 RL 很不一样。 RL 最早是用来打游戏的,而游戏的特点和分类问题有两大区别。 第一,游戏过程中有非常多的动作和决策。比如我们玩一个打乒乓球的游戏,发球、接球、回球,每一个动作都是非标的,而且不同的选择会直接影响最终的结 果。 第二,赢得一场游戏的方式可能有上万种,并没有唯一的标准答案。 所以 RL 是一套用于解决多步决策问题的算法框架。它要解决的问题没有标准答案,每一步的具体决策也不受约束,但当完成所有决策后,会有一个反馈机制来评 判它最终做得好还是不好。 吴翼: RL 是机器学习这个大概念下一类比较特殊的问题。 传统机器学习的本质是记住大量标注过正确答案的数据对。 ...