Reinforcement Learning with Verifiable Rewards (RLVR)
Search documents
Andrej Karpathy年度复盘:AI大模型正在演变成一种新型智能,今年出现6个关键拐点
Hua Er Jie Jian Wen· 2025-12-20 04:41
OpenAI创始人之一,AI大神Andrej Karpathy近日发布年度复盘,称2025年是大型语言模型领域蓬勃发 展的一年,出现了六个关键的"范式转变"拐点。这些变化不仅改变了行业格局,更重要的是揭示了LLM 正在演变成一种全新的智能形态。 12月20日,据硬AI消息,Karpathy在社交平台X上发布的年度复盘中表示,LLM正在演变成一种新型智 能,"比我预期的要聪明得多,同时也比我预期的要笨得多"。 与计算量较小的SFT和RLHF不同,RLVR针对客观且不可作弊的奖励函数,允许更长周期的优化。这种 方法具有极高的"能力/成本比",吞噬了原本用于预训练的算力。2025年大部分能力提升都源于各实验 室消化这一新阶段的"算力积压"。 他指出,今年出现了6个改变行业格局的"范式转变"关键拐点,其中基于可验证奖励的强化学习 (RLVR)成为LLM生产流程中的新阶段,各大实验室将原本用于预训练的算力转向了更长周期的强化 学习训练。 他特别强调了LLM智能的"锯齿状"特征,称这些模型既是博学的天才,又像是思维混乱的小学生。 Karpathy表示,LLM不是在"进化动物"而是在"召唤幽灵",这种全新的智能形态需要用不 ...