VQ-VLA:大规模合成数据驱动动作tokenizer,推理速度提升近三倍
具身智能之心·2025-07-02 10:18
- 动作表示效率低 :传统连续动作离散化方法(如均匀分桶)难以捕捉复杂时空动态,导致长时域任务 中累积误差增大 2. 数据依赖瓶颈 :真实机器人数据采集成本高,限制模型泛化能力 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yating Wang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 背景 视觉-语言-动作模型(VLA) 在多模态机器人控制中面临两大挑战: 核心贡献 通用动作分词器框架 :提出基于卷积残差VQ-VAE的通用动作分词器框架,替代传统分桶离散化方法。 合成数据驱动缩放 :首次证明动作轨迹的合成-真实域差异极小( Table 3 显示纯合成数据训练的VQ 在真实任务接近混合数据性能),利用超大规模合成数据(100倍于先前工作)训练分词器。 性能全面优化 :显著提升VLA模型的三项核心指标: 成功率 :长时域任务成功率最高提升30%(真实机器人实验 Figure 3 ) 关键技术方案 1. 卷积残差VQ-VA ...