VLA-Pruner:面向高效VLA推理的时序感知视觉token剪枝
具身智能之心·2025-11-21 16:03
作者丨 Ziyan Liu等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 点击下方 卡片 ,关注" 具身智能 之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 一、研究背景与核心挑战 1. VLA模型的价值与部署瓶颈 视觉-语言-动作(VLA)模型是具身智能的核心方向,能够整合视觉场景感知、自然语言理解与底层动作执行,在多样化机器人任务中展现出强大泛化能力。但这 类模型需要处理连续视觉流,而视觉Token数量通常是文本Token的一个数量级(如256个视觉Token vs 30-50个文本Token),导致计算开销巨大,严重限制实时部 署。 2. 现有剪枝方法的核心缺陷 现有视觉Token剪枝方法(如FastV、SparseVLM、DivPrune)均基于视觉-语言模型(VLM)设计,仅依赖预填充阶段的语义显著性指标(如文本-视觉交叉注意 力、特征多样性)筛选Token。但VLA模型存在 双系统本质 :高层语义理解(任务规划)与底层动作执行(精准操控)对视觉信息的需求截然不同 ...