Unified Diffusion VLA
Search documents
首个开源扩散VLA:Unified DVLA!实现SOTA性能+4倍加速
具身智能之心· 2025-11-07 00:05
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiayi Chen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 Diffusion Large Language Model (DLLM)是大模型圈近期最火的topic之一,对于VLA来说,我们的motivation是充分利用dllm在生成理解一体化方面天然的优势, 将未来帧生成和动作预测统一在一个框架内。 对于生成理解一体化的Unified VLA模型,我们关注的核心问题是如何实现图像生成和动作预测的相互裨益,针对这个问题我们提出了联合离散去噪过程Joint Discrete Denoising Diffusion Process (JD3P),即我们将不同模态的去噪过程统一在同一个去噪轨迹中,通过hybrid attention让动作在去噪过程内持续受益于图像的 去噪过程。为了在推理阶段充分发挥dllm的优势,我们设计了前缀KV Cache和基于置信度的decoding机制, ...