AAAI 2026 | 小鹏联合北大,专为VLA模型定制视觉token剪枝方法,让端到端自动驾驶更高效
VLA 模型正被越来越多地应用于端到端自动驾驶系统中。然而,VLA 模型中冗长的视觉 token 极大地增加了计算成本。但现有的视觉 token 剪枝方法都不是专为自 动驾驶设计的,在自动驾驶场景中都具有局限性。 小鹏汽车联合北京大学计算机科学学院多媒体信息处理国家重点实验室发表论文 《FastDriveVLA》 ,不仅为自动驾驶 VLA 模型中的高效视觉 token 剪枝建立了新 的范式,也为特定任务的剪枝策略提供了有价值的洞察。 受人类驾驶员主要关注前景区域而非背景区域的启发,研究团队做出假设:对于自动驾驶而言,与前景信息相关的视觉 token 比与背景内容相关的视觉 token 更有价 值。为了验证这个假设,研究团队构建了大规模自动驾驶标注数据集 nuScenes-FG (包含来自 6 个摄像头视角的、带有前景区域标注的 24.1 万个图像 - 掩码对), 通过 MAE 风格的 像素重建 策略 和新颖的 对抗性前景 - 背景重建 策略,训练出了一个适用于不同 VLA 模型的、可以即插即用的 视觉 token 剪枝器 ReconPruner 实验结果显示, 在不同剪枝比例下,FastDriveVLA 在 ...