Workflow
世界知识预测
icon
Search documents
DreamVLA:全球首个“世界知识预测”VLA模型,操作成功率近八成
具身智能之心· 2025-07-10 13:16
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Wenyao Zhang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 研究背景与动机 近年来,视觉-语言-动作(VLA)模型在整合图像生成与动作预测以提升机器人操作的泛化性和推理能力 方面展现出潜力。但现有方法受限于基于图像的预测,存在信息冗余,且缺乏动态、空间和语义等关键世 界知识,难以形成闭环的感知-预测-动作循环。 动态区域预测 :利用光流预测模型识别场景中动态区域(如运动物体、机器人末端执行器),让模型 专注于任务关键的运动区域,避免冗余帧重建。通过CoTracker提取动态区域,训练模型仅重建这些区 域,优化目标为最大化对数似然的证据下界,损失函数为: $${\mathcal{L}}_{d y n}={\frac{1}{|{\mathcal{D}}|}}\sum_{x_{i}\in{\mathcal{D}}}\mathbb{E}_{z\sim Q_{\phi}(z|x_ ...