2025:大语言模型(LLM)之年
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。 编者按:AI 不再是聊天玩具,而是正在接管决策的智能体。当 200 美金月费成为常态,中国模型已悄然登顶,OpenAI 的神话正在 2025 年的推理硝烟中加 速裂解。文章来自编译。 2025 年年度总结 "推理"之年 # OpenAI 在 2024 年 9 月用 o1 和 o1-mini 开启了"推理"革命,也叫做推理侧扩展或可验证奖励强化学习(RLVR)。在 2025 年初,他们通过推出 o3、o3-mini 和 o4-mini 进一步强化了这一优势。自此,"推理"已成为几乎每家主流 AI 实验室模型的招牌功能。 关于这一技巧重要性的解释,我最喜欢的是 Andrej Karpathy 的说法: 通过在多种环境(例如数学或代码谜题)中针对自动可验证的奖励对 LLM 进行训练,模型会自发产生在人类看来像是"推理"的策略——它们学 会了将问题拆解为中间计算步骤,并学会了多种反复尝试、摸索解决问题的策略(参见 DeepSeek R1 论文中的示例)。[...] 事实证明,运行 RLVR 具有极高的性价比,它吞噬了 ...