从视频生成到机器人操控：VideoVLA 开启通用机器人新范式

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Yichao Shen等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。在机器人操控领域，视觉 - 语言 - 动作（VLA）模型虽已实现语言指令驱动的任务执行，但在陌生物体处理、跨机器人技能迁移等泛化能力上仍存在瓶颈。现有方案多依赖预训练视觉语言理解模型，难以突破训练数据的场景限制。由西安交通大学、微软亚洲研究院等机构联合提出的 VideoVLA 框架，创新性地将大规模视频生成模型转化为端到端 VLA 系统，通过 "动作预测 + 视觉想象" 双目标策略，首次实现了机器人在未知场景下的稳健泛化，为通用机器人操控提供了全新技术路径。论文题目：VideoVLA: Video Generators Can Be Generalizable Robot Manipulators 核心贡献：首次将视频生成模型改造为通用机器人操控系统，通过联合预测动作序列与未来视觉结果，解锁跨物体、跨技 ...