视觉Token剪枝

Search documents
面向量产VLA!FastDriveVLA:即插即用剪枝模块,推理加速近4倍
自动驾驶之心· 2025-08-23 16:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 今天自动驾驶之心为大家分享 北京大学,小鹏汽车 最新的工作! FastDriveVLA:对抗性视觉token剪枝,50%压缩率下性能保持97.3%! 如果 您有相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与 技术交流群加入 ,也欢迎添加小助理微信AIDriver005 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Jiajun Cao等 编辑 | 自动驾驶之心 写在前面 && 笔者理解 近年来,端到端自动驾驶研究进展神速,各家也都在如火如荼的宣传自家的端到端方案。与传统模块化方案(感知→预测→规划)不同,端到端方法在同一个模 型中完成全部感知到规划的过程,有效减少了不同模块之间的信息损失,也从某种角度简化了系统架构。但是技术的进步不止于此,随着视觉-语言大模型 (VLM)在视觉问答任务中展现出令人称奇的推理能力,很多研究人员及算法团队开始将其扩展至具身智能和自动驾驶领域,通过引入动作生成功能,形成了视 觉-语言-动作(VLA)模型。相较传统模块化方案,VLA 模型在复杂场景理解与 ...