Workflow
动作引导自衍生蒸馏
icon
Search documents
ActDistill:同济大学提出动作引导蒸馏框架,机器人推理速度提升1.67倍
具身智能之心· 2025-11-26 00:05
作者丨 WenchengYe等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 研究背景与核心问题 Vision-Language-Action(VLA)模型在机器人操作、视觉导航等具身智能场景中表现出强大的多模态推理与动作预测能力,但庞大的架构、频繁的跨模态交互导致 计算开销大、推理延迟高,难以部署在实时或资源受限的机器人系统中。 现有高效VLA策略(如token剪枝、早期退出、轻量化架构)多沿用视觉-语言模型(VLM)的优化思路,优先基于视觉-语言相关性压缩模型,却忽略了动作预测的 核心目标,容易造成两大问题:一是关键信息损耗,感知和语义线索在压缩中被削弱,影响任务目标与环境上下文理解;二是动作语义不连贯,结构简化破坏了动 作相关语义的连续性,降低了动作策略的稳定性。 为解决这些问题,需要一种以动作预测为导向的高效蒸馏框架,在降低计算成本的同时,保留VLA模型的动作预测精度与稳定性。 核心方法:ActDistill 框架 ActDistill ...