大模型“缩放定律”悖论:RL(强化学习)越强,AGI(通用智能)越远?
硬AI·2025-12-24 08:10

知名科技博主犀利指出,各大实验室通过RL(强化学习),耗资数十亿美元让大模型"排练"Excel、网页操作等技能,恰 恰暴露其距真正AGI仍远。若AI真接近类人智能,就该像人类一样从经验中自主学习,而非依赖"可验证奖励训练"。而真 正突破在于"持续学习"能力,这一过程或需5-10年才能完善。 硬·AI 作者 | 龙 玥 编辑 | 硬 AI 在人工智能迈向通用智能(AGI)的竞赛中,当前最受追捧的强化学习(RL)路径,可能正将我们引向一 条歧路——RL越强,距离真正的AGI或许越远。 12月24日,知名科技博主、Dwarkesh Podcast博客主持人Dwarkesh Patel今日发布了一则引发行业深思 的视频,直击当前大模型发展的痛点。在硅谷普遍对Scaling Law(缩放定律)和RL(强化学习)持极度 乐观态度的背景下,Patel提出了一个反直觉的犀利观点: 对RL(强化学习)的过度依赖和投入,可能非 但不是通往AGI的捷径,反而是其远未到来的明确信号。 Patel的核心论点在于,当前顶尖AI实验室正耗费巨资,通过基于可验证结果的强化学习,为大模型"预 制"大量特定技能,例如操作Excel或浏览网页。然 ...