OpenVLA框架

Search documents
保持精度,提升速度!Spec-VLA:首个专为VLA推理加速设计的推测解码框架
具身智能之心· 2025-08-14 00:03
点击按钮预约直播 视觉-语言-动作(VLA)模型依托视觉语言模型(VLMs)的强大能力取得了显著进展,但VLMs庞大的参数规模和自回归解码特性,给VLA模型带来了不小的计算 负担。投机解码(SD)通过高效的草稿生成与并行验证,能让大型语言模型(LLMs)在单次前向传播中生成多个token,从而有效加速推理,不过这一技术在VLA 模型中的应用尚未被探索。 为此,我们提出了Spec-VLA: 首个专为VLA推理加速设计的SD框架 。由于动作预测任务本身的难度,加上VLA模型采用贪婪解码机制,直接应用现有的先进SD 框架,对VLA预测任务的提速效果并不明显。 为进一步提升生成速度,我们利用VLA模型动作token所表征的相对距离,设计了一种有效的宽松接受机制。 多场景测试结果证实了Spec-VLA框架的有效性。进一步分析表明, 本文提出的策略能将接受长度提升44%,相比OpenVLA基线模型实现1.42倍的速度提升,同时 不降低任务成功率 。Spec-VLA框架的成功,凸显了投机执行在VLA预测场景中更广泛应用的潜力。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识 ...