UCLA提出PEVA:具身Agents的世界模型时代
具身智能之心·2025-06-30 03:47
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yutong Bai等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 背景与动机 本篇论文探讨了具身智能体理解 物理动作与视觉感知关系 的根本挑战。人类通过全身动作(如转身、伸 手)主动改变第一人称视角的视觉输入,这对智能体的环境交互和长期规划至关重要。现有世界模型(如 基于速度控制的导航模型)存在显著局限: 这些局限阻碍了智能体在真实场景中的物理交互能力。该研究提出 PEVA模型 ,首次将全身3D姿态作为条 件信号预测第一人称视频,为具身智能提供物理基础更扎实的仿真环境。内容出自国内首个具身智能全栈 学习社区:具身智能之心知识星球,欢迎和近200家公司和机构交流。 核心创新点 1. 结构化全身动作表征 关键突破 :将动作定义为48维向量,融合全局身体运动(骨盆位移)与局部关节旋转(15个上半身关 节的欧拉角变化),通过运动学树结构保留层次关系。 1. 动作表征简化 :多数模型采用低 ...