Workflow
阿里新研究:一统VLA和世界模型
具身智能之心·2025-10-31 00:04

编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 如果说视觉让AI看见世界,动作让AI改变世界,那么—— WorldVLA正在让AI理解世界。 顾名思义, WorldVLA 是一个将视觉语言动作模型(VLA)与世界模型相融合的统一框架,由阿里巴巴达摩院、湖畔实验室和浙江大学共同 提出。 在该框架下, 实验结果表明,WorldVLA的表现显著优于独立的动作模型与世界模型,充分体现了二者之间的相互增强效应。 | Model Type | Discrete | Continous | Input Output | | --- | --- | --- | --- | | Action Model | OpenVLA (Kim et al., 2024) | TO (Black et al., 2024) | T + V | | Video Prediction Model | MAGVIT (Yu et al., 2023) | SVD (Bla ...