潜动作学习
Search documents
LatBot:中科院团队提出潜在动作蒸馏,提升机器人VLA小样本迁移效率
具身智能之心· 2025-12-04 00:04
本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zuolei Li等 编辑丨具身智能之心 一、 研究背景与挑战 潜动作学习是视觉-语言-动作(VLA)模型的重要研究方向,核心是从连续帧中提取压缩的运动语义,形成与机器人实体无关的通用表示,从而利用大规模人类 视频扩展训练数据,突破传统机器人数据集的多样性和泛化性限制。 现有潜动作模型(LAM)存在三大关键问题:一是缺乏任务指令引导,无法捕捉与任务相关的变化;二是对多帧信息利用不足,导致潜动作表示不够精确,难 以捕捉运动动态;三是过度关注视觉外观变化,缺乏物理感知,使得潜动作表示与实际可执行动作之间存在语义鸿沟,严重影响下游任务的迁移效果。 二、 核心方法设计 2.1 解耦的潜动作表示 将潜动作分解为两个互补的可学习token,明确区分机器人主动运动与环境被动变化: 通过引入预训练视觉-语言模型(VLM),结合任务指令和多帧输入,将两个可学习token([CP ...