不用VLA!从视频生成模型到机器人控制
具身智能之心·2026-01-11 03:02
以下文章来源于具身纪元 ,作者liuxjerry 具身纪元 . 见证具身浪潮,书写智能新纪元 作者丨 liuxjerry 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 撰 文:liuxjerry 编辑:Marilyn 目前最主流的机器人控制方法就是VLA了。 不用VLA呢? 世界模型?你说的世界模型和我说的世界模型可能不是一个世界模型,详见我们以前的分析文章 理解世界or预测未来,世界模型的本质是什么? 编辑丨具身纪元 所以,更准确的来说,用视频生成模型,能控制好机器人吗? 大家普遍怀疑的是,是不是只能在虚拟环境中,是不是泛化效果不好等等。 2026年1月6日,刚开年,就有一篇来自OpenAI研究员、MIT博士Boyuan Chen的研究文章,做了这方面的尝试和解答。 | Task Set and Tasks | Ours | TO | OpenVLA | | | --- | --- | --- | --- | --- | | Task Group A: ...