Workflow
Claude 4如何思考?资深研究员回应:RLHF范式已过,RLVR已在编程/数学得到验证
量子位·2025-05-24 06:30

白交 发自 凹非寺 量子位 | 公众号 QbitAI 惊艳全球的Claude 4,但它到底是如何思考? 来自Anthropic两位研究员最新一期博客采访,透露了很多细节。 这两天大家可以说是试玩了不少,有人仅用一个提示就搞定了个浏览器Agent,包括API和前端……直接一整个大震惊,与此同时关于 Claude 4可能有意识并试图干坏事的事情同样被爆出。 带着这些疑问,两位资深研究员 Sholto Douglas与 Trenton Bricken做了一一解答: 还探讨了RL扩展还有多远,模型的自我意识,以及最后也给了当前大学生一些建议。 可验证奖励强化学习RLVR的范式已在编程和数学领域得到证明,因为这些领域很容易获得此类清晰的信号。 AI获诺奖比获普利策小说奖更容易。让AI生成一篇好文章, 品味是个相当棘手的问题 。 明年这个时候,真正的软件工程Agent将开始进行实际工作 网友评价:这期独特见解密度很高。 另外还有人发现了华点:等等,你们之前都来自DeepMind?? | 0xmusashi � @zeroXmusashi · May 23 | | | --- | --- | | damn they bot ...