Workflow
人机相互模仿预训练
icon
Search documents
超越π0.5,MiVLA通过人机相互模仿预训练,破解 VLA 模型泛化与数据瓶颈
具身智能之心· 2025-12-22 01:22
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zhenhan Yin等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人视觉 - 语言 - 动作(VLA)模型领域,"数据稀缺" 与 "泛化薄弱" 始终是两大核心痛点——真实机器人数据采集成本高、场景覆盖有限,而模拟数据存在 "模拟 - 现实鸿沟"、人类数据面临形态差异难题,现有方案难以兼顾 "数据规模" 与 "迁移性能"。 由同济大学、电子科技大学等团队联合提出的 MiVLA 模型,以 "人机相互模仿预训练" 为核心创新,首次实现无需真实机器人数据,仅通过模拟机器人数据与人类 视频数据的融合训练,就能达成超越现有顶尖模型的泛化能力,为通用型机器人政策学习提供了低成本、高可扩展的全新路径。 为什么需要重构 VLA 预训练范式? 当前 VLA 模型训练陷入双重困境:一方面,依赖真实机器人数据的训练方案受限于 "数据瓶颈";另一方面,依赖单一模拟数据或人类数据的方案受限于 "模态鸿 ...