北大卢宗青:现阶段世界模型和 VLA 都不触及本质|具身先锋十人谈
雷峰网·2025-06-20 11:54
" 互联网视频数据是唯一可以 scale up 的道路 。 " 作者丨 郭海惟 编辑丨 陈彩娴 作为一名具身大脑的创业者,卢宗青有着金光闪闪的履历: 他是紧随 DeepMind之后,中国新生代的强化学习研究者。北京大学计算机学院长聘副教授,担任过智源 研究院多模态交互研究中心负责人,负责过首个国家自然科学基金委原创探索计划通用智能体项目,还同 时在NeurIPS、ICLR、ICML等机器学习的国际顶级会议担任领域主席。 早在 2023年,他旗下团队便有利用多模态模型研究通用 Agent 的研究尝试,让 Agent 玩《荒野大镖客 2》和办公,使其成为第一个从零开始在AAA级游戏中完成具体任务的 LLM 智能体。相关论文几经波折, 今年终于被 ICML 2025 录用。不过他自述对那份研究其实不够满意,因为"泛化性不足"。 当完成那些研究以后,卢宗青意识到 "当前的多模态模型缺乏与世界交互的能力"。因为模型缺少学习物 理交互的数据,所以 我们看到的那些泛化的能力本质都是 "抽象"的,它终究无法理解动作和世界的关 系,自然也无法预测世界 。 这如今成为他想在具身智能创业的起点:开发一个通用的具身人工智能模型。 卢 ...