PEVA模型

Search documents
LeCun发布最新世界模型:首次实现16秒连贯场景预测,具身智能掌握第一视角!还打脸用了VAE
量子位· 2025-06-30 06:38
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI LeCun在干嘛呢? 就在扎克伯克亲自带队Meta的AI项目,千亿薪酬挖得硅谷人心浮动之际。Meta在AI领域最负盛名的大佬、图灵奖得主、深度学习三巨头之一 的Yann LeCun,却几乎声量全无,他没有参与LLM基础模型的研发,也开始在社交网络上消停了。 LeCun是要离开Meta了吗? 不不不。他可能只是在憋自己想追逐的大招,比如——世界模型。而且就在最近,LeCun团队的世界模型新进展来了。 名叫 PEVA模型 ,新突破是让具身智能体学会这人类一样的"预判能力",首次实现16秒连贯场景预测。怎么说呢?就像人类伸手时会预判手 臂进入视野的角度、走路时会提前观察脚下路径,LeCun团队的最新模型,可以让机器人实现这样的能力。 该模型通过 结构化动作表示将 人体48维关节运动学数据与 条件扩散Transformer 结合。 利用VAE编码视频帧、自适应层归一化嵌入动作条件及跨历史帧注意力机制等,实现了从全身动作 预测第一视角视频 的高精度生成与长期时 序连贯。 PEVA模型让具身智能体不再依赖"上下左右"这种抽象信号进行训练,而是以 第一人称视角的视频+全 ...
UCLA提出PEVA:具身Agents的世界模型时代
具身智能之心· 2025-06-30 03:47
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yutong Bai等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 背景与动机 本篇论文探讨了具身智能体理解 物理动作与视觉感知关系 的根本挑战。人类通过全身动作(如转身、伸 手)主动改变第一人称视角的视觉输入,这对智能体的环境交互和长期规划至关重要。现有世界模型(如 基于速度控制的导航模型)存在显著局限: 这些局限阻碍了智能体在真实场景中的物理交互能力。该研究提出 PEVA模型 ,首次将全身3D姿态作为条 件信号预测第一人称视频,为具身智能提供物理基础更扎实的仿真环境。内容出自国内首个具身智能全栈 学习社区:具身智能之心知识星球,欢迎和近200家公司和机构交流。 核心创新点 1. 结构化全身动作表征 关键突破 :将动作定义为48维向量,融合全局身体运动(骨盆位移)与局部关节旋转(15个上半身关 节的欧拉角变化),通过运动学树结构保留层次关系。 1. 动作表征简化 :多数模型采用低 ...