视觉token剪枝
Search documents
AAAI 2026 | 小鹏联合北大,专为VLA模型定制视觉token剪枝方法
具身智能之心· 2026-01-05 01:03
实验结果显示, 在不同剪枝比例下,FastDriveVLA 在 nuScenes 开环规划基准测试中均取得了 SOTA 性能 。FastDriveVLA 也非常高效,当视觉 token 数量从 3249 减少至 812 时,FastDriveVLA 的 FLOPs 直降约 7.5 倍;在 CUDA 推理延迟方面,FastDriveVLA 将预填充(prefill)时间减少了 3.7 倍、将解码(decode)时间减少 了 1.3 倍,显著提升了推理效率。 该篇论文被 AAAI 2026 录用。 编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! VLA 模型正被越来越多地应用于端到端自动驾驶系统中。然而,VLA 模型中冗长的视觉 token 极大地增加了计算成本。但现有的视觉 token 剪枝方法都不是专为自 动驾驶设计的,在自动驾驶场景中都具有局限性。 小鹏汽车联合北京大学计算机科学学院多媒体信息处理国家重点实验室发表论文 《FastDrive ...
AAAI 2026 | 小鹏联合北大,专为VLA模型定制视觉token剪枝方法,让端到端自动驾驶更高效
机器之心· 2026-01-04 05:43
VLA 模型正被越来越多地应用于端到端自动驾驶系统中。然而,VLA 模型中冗长的视觉 token 极大地增加了计算成本。但现有的视觉 token 剪枝方法都不是专为自 动驾驶设计的,在自动驾驶场景中都具有局限性。 小鹏汽车联合北京大学计算机科学学院多媒体信息处理国家重点实验室发表论文 《FastDriveVLA》 ,不仅为自动驾驶 VLA 模型中的高效视觉 token 剪枝建立了新 的范式,也为特定任务的剪枝策略提供了有价值的洞察。 受人类驾驶员主要关注前景区域而非背景区域的启发,研究团队做出假设:对于自动驾驶而言,与前景信息相关的视觉 token 比与背景内容相关的视觉 token 更有价 值。为了验证这个假设,研究团队构建了大规模自动驾驶标注数据集 nuScenes-FG (包含来自 6 个摄像头视角的、带有前景区域标注的 24.1 万个图像 - 掩码对), 通过 MAE 风格的 像素重建 策略 和新颖的 对抗性前景 - 背景重建 策略,训练出了一个适用于不同 VLA 模型的、可以即插即用的 视觉 token 剪枝器 ReconPruner 实验结果显示, 在不同剪枝比例下,FastDriveVLA 在 ...