算力救不了AI智商?谷歌新大招终结“随机鹦鹉”争论
传统AI模型在稀疏奖励环境中,往往会找不到激励难以学会层次化思考。如今,谷歌团队通过引入元控制器操控模型内部残 差流,让智能体学会了「跳跃式思考」。该研究揭示了大模型内部可自发形成了类似人脑的层次化决策机制,为AI在需要多 步的复杂任务提供了全新的训练范式。 AI智能体最大的「硬伤」,是算力不够? 并不是,奖励太少、路太长才是。 在稀疏奖励的长序列任务里,传统token-by-token探索像蒙眼走迷宫:没有路标、没有提示,只有走到终点才知道对不对。 结果就是一个尴尬现实:想让智能体做点复杂事,往往必须外挂规划器「扶着走」。 而谷歌这项研究直接换打法:在迷宫里要求智能体按顺序踏过一串彩色子目标,且只有全程无误才给奖励——用最残酷的稀 疏奖励,逼出真正的层次化决策能力。 真正的突破在于:他们不再只优化输出,而是开始操控模型内部的「认知过程」。 在稀疏奖励下,智能体如何高效探索 传统的大模型,依赖逐词生成(token-by-token)的探索方式,而这对于需要多个正确步骤才能获得奖励的复杂任务,由于奖 励稀疏,导致智能体难以完成需要层次化决策的长序列任务。 这好比让一个人蒙着眼睛走迷宫,只有到达终点才能获得反馈, ...