算力救不了AI智商？谷歌新大招终结“随机鹦鹉”争论

传统AI模型在稀疏奖励环境中，往往会找不到激励难以学会层次化思考。如今，谷歌团队通过引入元控制器操控模型内部残差流，让智能体学会了「跳跃式思考」。该研究揭示了大模型内部可自发形成了类似人脑的层次化决策机制，为AI在需要多步的复杂任务提供了全新的训练范式。 AI智能体最大的「硬伤」，是算力不够？并不是，奖励太少、路太长才是。在稀疏奖励的长序列任务里，传统token-by-token探索像蒙眼走迷宫：没有路标、没有提示，只有走到终点才知道对不对。结果就是一个尴尬现实：想让智能体做点复杂事，往往必须外挂规划器「扶着走」。而谷歌这项研究直接换打法：在迷宫里要求智能体按顺序踏过一串彩色子目标，且只有全程无误才给奖励——用最残酷的稀疏奖励，逼出真正的层次化决策能力。真正的突破在于：他们不再只优化输出，而是开始操控模型内部的「认知过程」。在稀疏奖励下，智能体如何高效探索传统的大模型，依赖逐词生成（token-by-token）的探索方式，而这对于需要多个正确步骤才能获得奖励的复杂任务，由于奖励稀疏，导致智能体难以完成需要层次化决策的长序列任务。这好比让一个人蒙着眼睛走迷宫，只有到达终点才能获得反馈， ...