LeCun发布最新世界模型:首次实现16秒连贯场景预测,具身智能掌握第一视角!还打脸用了VAE
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI LeCun在干嘛呢? 就在扎克伯克亲自带队Meta的AI项目,千亿薪酬挖得硅谷人心浮动之际。Meta在AI领域最负盛名的大佬、图灵奖得主、深度学习三巨头之一 的Yann LeCun,却几乎声量全无,他没有参与LLM基础模型的研发,也开始在社交网络上消停了。 LeCun是要离开Meta了吗? 不不不。他可能只是在憋自己想追逐的大招,比如——世界模型。而且就在最近,LeCun团队的世界模型新进展来了。 名叫 PEVA模型 ,新突破是让具身智能体学会这人类一样的"预判能力",首次实现16秒连贯场景预测。怎么说呢?就像人类伸手时会预判手 臂进入视野的角度、走路时会提前观察脚下路径,LeCun团队的最新模型,可以让机器人实现这样的能力。 该模型通过 结构化动作表示将 人体48维关节运动学数据与 条件扩散Transformer 结合。 利用VAE编码视频帧、自适应层归一化嵌入动作条件及跨历史帧注意力机制等,实现了从全身动作 预测第一视角视频 的高精度生成与长期时 序连贯。 PEVA模型让具身智能体不再依赖"上下左右"这种抽象信号进行训练,而是以 第一人称视角的视频+全 ...