Workflow
Vision - language - action Models
icon
Search documents
理想发布机器人领域VLA模型优化框架
理想TOP2· 2025-09-21 15:08
25年9月16日,理想发布 The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning 通讯作者为理想郎咸朋,Titong Jiang与Xuefeng Jiang为共同一作,理想Yuan Ma为项目负责人。理想汽车为第一单位,清华大学车辆与运载学院为第二单 位,中科院计算所为第三单位。 理想这篇论文发布的是LightVLA,LightVLA是首个能同时提升机器人VLA模型任务成功率和运行效率的自适应视觉token pruning框架。 理想做的事是将 Token Pruning 问题从一个以牺牲性能为代价的压缩任务变为一个纯粹由性能驱动的优化任务 。模型在学习过程中,为了追求任务的最 高成功率,会自发地学会剪掉那些对任务无益甚至产生干扰(噪声)的 视觉Tokens ,从而在提升性能的同时,自然而然地实现了计算效率的大幅优化 。 Token选择 (Token Selection):在训练中,借助Gumbel-softmax ...