ERMV框架

Search documents
ERMV框架:针对操作任务的数据增强,显著提升VLA模型跨场景成功率
具身智能之心· 2025-07-28 13:19
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Chang Nie等 编辑丨具身智能之心 数学表达: 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 研究背景 机器人模仿学习高度依赖4D多视图序列图像(包含多视角、时间维度的图像),但高质量数据收集成本 高、数量稀缺,严重限制了视觉-语言-动作(VLA)等具身智能策略的泛化与应用。数据增强是缓解数据 稀缺的有效手段,但目前缺乏针对操作任务的4D多视图序列图像编辑方法。 现有方法存在明显的局限:传统数据增强方法(如CACTI、ROSIE)仅针对单张静态图像编辑,无法满足 VLA模型对时空连续4D数据的需求;多视图编辑方法依赖固定相机位置,难以处理机器人操作中动态变化 的多相机系统;视频生成模型因密集时空注意力机制,受限于计算成本,工作窗口小,且难以处理长序列 中的误差累积。 核心挑战与解决方案 ERMV(Editing Robotic Multi-View 4D data)是一种新型数据增强框架,基于单帧 ...