Workflow
WorldVLA:世界模型实现视觉-动作双向增强,抓取精度显著提升
具身智能之心·2025-06-30 12:17

领域介绍 VLA模型的发展已成为机器人动作模型研究的重要焦点。这些模型通过在大规模预训练多模态大语言模型 (MLLM)的基础上增加动作头或额外的动作专家模块来生成动作。MLLM 在感知和决策方面提供了强大 能力,使 VLA 模型能够在广泛的机器人任务中表现出更强的泛化能力。然而,一个显著的限制仍然存在: 这些模型往往缺乏对动作的全面理解,因为动作仅被视为输出,而未被集成作为输入进行深入分析。相比 之下,世界模型展示了基于当前观察和动作预测未来视觉状态的能力,从而实现对视觉信息和行为动态的 双重理解。尽管有这一优势,世界模型受到无法直接生成动作输出的限制,导致功能缺口,限制了其在需 要显式动作规划的场景中的应用。 作者丨 JunCen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 WorldVLA功能与定义 WorldVLA是一种将动作与图像理解和生成相结合的自回归动作世界模型。WorldVLA 在单一框架中集成了 视觉 - 语言 - 动作( ...