中山大学HCP Lab联合拓元智慧提出高效世界模型DDP-WM,机器人规划效率提升9倍
机器之心·2026-03-03 08:14

基于预训练视觉表征构建世界模型已成为具身智能领域的前沿研究方向。以 DINO-WM 为代表的先进研究成果表明,基于视觉 Transformer (ViT) 的架构 能够精确捕捉复杂的物理动态,并展现出强大的零样本规划能力。然而,这种不区分运动物体和静态背景、对所有图像块应用自注意力的密集计算范式导致 了高昂的计算开销,使得决策速度成为实际部署中一个巨大的挑战。 具体来说,目前最先进的此类模型 (DINO-WM) 在处理 Push-T 等典型操作任务时,其模型预测控制 (MPC) 的单个决策循环耗时高达 两分钟 。显然,这 种延迟对于需要与物理世界持续高频交互的现实场景应用而言是不可接受的,阻碍了机器人的大规模、低成本端侧设备部署。 近期,中山大学人机物智能融合实验室 (HCP Lab) 联合拓元智慧 X-Era AI 提出了一种新型的高效世界模型框架: DDP-WM (Disentangled Dynamics Prediction World Model)。 该框架的核心思想是解耦动态预测。通过一套系统化的设计,将计算资源精确分配给场景中不同属性的动态特性,从而在推理 速度大幅提升的同时,还能显著提升复杂操 ...

中山大学HCP Lab联合拓元智慧提出高效世界模型DDP-WM,机器人规划效率提升9倍 - Reportify