AAAI 2026 | 小鹏联合北大,专为VLA模型定制视觉token剪枝方法
实验结果显示, 在不同剪枝比例下,FastDriveVLA 在 nuScenes 开环规划基准测试中均取得了 SOTA 性能 。FastDriveVLA 也非常高效,当视觉 token 数量从 3249 减少至 812 时,FastDriveVLA 的 FLOPs 直降约 7.5 倍;在 CUDA 推理延迟方面,FastDriveVLA 将预填充(prefill)时间减少了 3.7 倍、将解码(decode)时间减少 了 1.3 倍,显著提升了推理效率。 该篇论文被 AAAI 2026 录用。 编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! VLA 模型正被越来越多地应用于端到端自动驾驶系统中。然而,VLA 模型中冗长的视觉 token 极大地增加了计算成本。但现有的视觉 token 剪枝方法都不是专为自 动驾驶设计的,在自动驾驶场景中都具有局限性。 小鹏汽车联合北京大学计算机科学学院多媒体信息处理国家重点实验室发表论文 《FastDrive ...