潜动作学习 - filings, earnings calls, financial reports, news - Reportify

潜动作学习

Search documents

LatBot：中科院团队提出潜在动作蒸馏，提升机器人VLA小样本迁移效率

具身智能之心· 2025-12-04 00:04

本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。点击下方卡片，关注" 具身智能之心 "公众号作者丨 Zuolei Li等编辑丨具身智能之心一、研究背景与挑战潜动作学习是视觉-语言-动作（VLA）模型的重要研究方向，核心是从连续帧中提取压缩的运动语义，形成与机器人实体无关的通用表示，从而利用大规模人类视频扩展训练数据，突破传统机器人数据集的多样性和泛化性限制。现有潜动作模型（LAM）存在三大关键问题：一是缺乏任务指令引导，无法捕捉与任务相关的变化；二是对多帧信息利用不足，导致潜动作表示不够精确，难以捕捉运动动态；三是过度关注视觉外观变化，缺乏物理感知，使得潜动作表示与实际可执行动作之间存在语义鸿沟，严重影响下游任务的迁移效果。二、核心方法设计 2.1 解耦的潜动作表示将潜动作分解为两个互补的可学习token，明确区分机器人主动运动与环境被动变化：通过引入预训练视觉-语言模型（VLM），结合任务指令和多帧输入，将两个可学习token（[CP ...

视觉-语言-动作（VLA）模型

潜动作学习

视觉-语言-动作（VLA）模型

潜动作学习