北大卢宗青：现阶段世界模型和 VLA 都不触及本质｜具身先锋十人谈

" 互联网视频数据是唯一可以 scale up 的道路。 " 作者丨郭海惟编辑丨陈彩娴作为一名具身大脑的创业者，卢宗青有着金光闪闪的履历：他是紧随 DeepMind之后，中国新生代的强化学习研究者。北京大学计算机学院长聘副教授，担任过智源研究院多模态交互研究中心负责人，负责过首个国家自然科学基金委原创探索计划通用智能体项目，还同时在NeurIPS、ICLR、ICML等机器学习的国际顶级会议担任领域主席。早在 2023年，他旗下团队便有利用多模态模型研究通用 Agent 的研究尝试，让 Agent 玩《荒野大镖客 2》和办公，使其成为第一个从零开始在AAA级游戏中完成具体任务的 LLM 智能体。相关论文几经波折，今年终于被 ICML 2025 录用。不过他自述对那份研究其实不够满意，因为"泛化性不足"。当完成那些研究以后，卢宗青意识到 "当前的多模态模型缺乏与世界交互的能力"。因为模型缺少学习物理交互的数据，所以我们看到的那些泛化的能力本质都是 "抽象"的，它终究无法理解动作和世界的关系，自然也无法预测世界。这如今成为他想在具身智能创业的起点：开发一个通用的具身人工智能模型。卢 ...