从视频生成到机器人操控:VideoVLA 开启通用机器人新范式
具身智能之心·2025-12-11 04:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yichao Shen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人操控领域,视觉 - 语言 - 动作(VLA)模型虽已实现语言指令驱动的任务执行,但在陌生物体处理、跨机器人技能迁移等泛化能力上仍存在瓶颈。现有方 案多依赖预训练视觉语言理解模型,难以突破训练数据的场景限制。 由西安交通大学、微软亚洲研究院等机构联合提出的 VideoVLA 框架 ,创新性地将大规模视频生成模型转化为端到端 VLA 系统,通过 "动作预测 + 视觉想象" 双目 标策略,首次实现了机器人在未知场景下的稳健泛化,为通用机器人操控提供了全新技术路径。 论文题目:VideoVLA: Video Generators Can Be Generalizable Robot Manipulators 核心贡献: 首次将视频生成模型改造为通用机器人操控系统,通过联合预测动作序列与未来视觉结果,解锁跨物体、跨技 ...