Claude 4 核心成员访谈:提升 Agent 独立工作能力,强化模型长程任务能力是关键
Founder Park·2025-05-28 13:13
「2025 年最大的变化,是强化学习在大语言模型训练上终于开始奏效了。」 这是 Anthropic 的两位研究员,Sholto Douglas(专注于强化学习)和 Trenton Bricken(研究机制可解释 性)对于今年模型趋势变化的总结。 Gemini 2.5 Pro 和 Claude Opus 4 的发布也变相证明了这个判断。 在 Dwarkesh Podcast 这期两个半小时的采访中,两位研究员对于 RLVR(可验证奖励的强化学习)、模 型的自我意识、以及 Claude 一直专注的「模型可解释性」做了深入的讨论。 尤其是模型以及 Agent 之后的发展方向,比如人类驾驭多个 Agent 的可能性、以及现阶段应该提高模型 的底线,而不是去追究极致。还有 AI 白领在未来两年的可能性,毕竟「Agent 操作电脑」并不难,只 要环境具备。 他们还夸奖了 DeepSeek 在模型研发上的「品味」,颇有种「惺惺相惜」的感觉。 两个半小时的采访,我们还摘录了 Sholto Douglas 在另外一期播客的部分回答,聊得很深入而且很透 彻。 TLDR: 2025 年最大的变化是强化学习技术在语言模型上真正奏效了 ...