UCLA提出PEVA：具身Agents的世界模型时代

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Yutong Bai等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。背景与动机本篇论文探讨了具身智能体理解物理动作与视觉感知关系的根本挑战。人类通过全身动作（如转身、伸手）主动改变第一人称视角的视觉输入，这对智能体的环境交互和长期规划至关重要。现有世界模型（如基于速度控制的导航模型）存在显著局限：这些局限阻碍了智能体在真实场景中的物理交互能力。该研究提出 PEVA模型，首次将全身3D姿态作为条件信号预测第一人称视频，为具身智能提供物理基础更扎实的仿真环境。内容出自国内首个具身智能全栈学习社区：具身智能之心知识星球，欢迎和近200家公司和机构交流。核心创新点 1. 结构化全身动作表征关键突破：将动作定义为48维向量，融合全局身体运动（骨盆位移）与局部关节旋转（15个上半身关节的欧拉角变化），通过运动学树结构保留层次关系。 1. 动作表征简化：多数模型采用低 ...