Workflow
清华联手理想提出LightVLA:剪掉冗余token,推理速度提升38%!
具身智能之心·2025-09-18 00:03

点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Titong Jiang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 研究背景与核心挑战 视觉-语言-动作(VLA)模型是机器人 embodied intelligence 的核心技术,能将视觉信息和语言指令直接转化为可执行的机器人动作,在复杂操作(如物体抓取、 长程规划)中展现出强大能力。但这类模型存在一个关键瓶颈: 视觉Token的计算冗余 ——VLA模型通常需要处理数百个视觉Token(如OpenVLA-OFT使用512 个),而注意力机制的计算复杂度随Token数量呈平方增长,导致模型在边缘设备(如家用机器人、自动驾驶)上难以实现实时部署。 现有优化方案存在明显局限: 1. 效率与性能的trade-off :多数Token剪枝方法(如EfficientVLA、VLA-Cache)为提升效率会固定保留Token数量,导致关键语义信息丢失,最终牺牲性能; 2. VLM剪枝方案不 ...