Workflow
视觉-语言-动作模型
icon
Search documents
全新范式!LLaDA-VLA:首个基于大语言扩散模型的VLA模型
具身智能之心· 2025-09-12 00:05
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yuqing Wen等 编辑丨具身智能之心 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 近年来,视觉-语言模型(Vision-Language Models, VLMs)取得了飞跃式进展。其中,自回归模型长期占据主导地位,展现了强大的多模理解与泛化能力,并推 动视觉-语言-动作模型(Vision-Language-Action Models, VLAs)成为了机器人智能控制的研究热点。然而,自回归模型的单向顺序生成机制在效率与灵活性上存 在天然瓶瓶颈。为突破这一困境, 掩码扩散模型 (Masked Diffusion Models, MDMs)强势崛起,凭借并行预测与多轮迭代优化,在大规模预训练下展现出于自 回归模型可比的性能与可扩展性,代表性的工作有 大语言扩散模型 LLaDA,以及其多模态拓展LLaDA-V等。 然而,大语言扩散模型在 机器人动作生成 上的价值仍未被充分挖掘。为此,我们提出 LLaDA-VLA —首个大语言扩散模型开发的 ...