英伟达Jim Fan:“世界建模”是新一代预训练范式
继"下一个词预测"之后,世界建模将成为新的预训练范式。 这是英伟达机器人主管Jim Fan给出的最新判断。 他认为,2026年将成为大世界模型(Large World Models)真正为机器人领域以及更广义的多模态AI奠定基础的第一年。 谢赛宁随即转发表示赞同:"事后看来显而易见"。 在这篇长文中,Jim Fan讨论了世界模型的定义与应用,尤其聚焦于物理AI领域的发展,同时展望了新的推理形式: 世界建模(world modeling)是在给定一个动作的条件下,预测下一个合理的世界状态(或一段更长时间范围内的状态)。 当前世界模型的主要炒作集中在AI视频领域,而2026年将迎来物理AI的爆发。 世界模型需要更广义的预训练目标:下一个世界状态不应只包含RGB,还必须覆盖3D运动、本体感觉与触觉。 将出现一种新的推理形式:在视觉空间中的思维链,而非语言空间中的思维链。 以下为分享全文: 第二个预训练范式 下一个词预测(Next word prediction )曾是第一个预训练范式,而现在我们正在经历第二次范式转变: 世界建模(world modeling),或者说"下一个物理状态预测"。 很少有人真正理解这一转 ...