Workflow
扩散世界模型LaDi-WM大幅提升机器人操作的成功率和跨场景泛化能力
具身智能之心·2025-08-18 00:07

在机器人操作任务中,预测性策略近年来在具身人工智能领域引起了广泛关注,因为它能够利用预测状态来提升机器人的操作性能。然而,让世界模型预测机器 人与物体交互的精确未来状态仍然是一个公认的挑战,尤其是生成高质量的像素级表示。 为解决上述问题, 国防科大、北京大学、深圳大学团队 提出 LaDi-WM(Latent Diffusion- based World Models) ,一种基于隐空间扩散的世界模型,用于预测隐 空间的未来状态。 具体而言,LaDi-WM 利用预训练的视觉基础模型 (Vision Fundation Models) 来构建隐空间表示,该表示同时包含几何特征(基于 DINOv2 构造)和语义特征(基于 Siglip 构造),并具有广泛的通用性,有利于机器人操作的策略学习以及跨任务的泛化能力。 编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 基于 LaDi-WM,团队设计了一种扩散策略,该策略通过整合世界模型生成的预测状态来 ...