新国立提出VLA-4D:4D感知VLA模型,实现时空连贯的机器人操作
具身智能之心·2025-11-25 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Hanyu Zhou等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 一、 为什么提出4D感知VLA模型 视觉-语言-动作(VLA)模型已在通用机器人任务中展现潜力,但在需要精细表征的时空连贯操作任务中仍面临瓶颈: 核心目标是通过融合空间与时间信息,同时增强视觉推理和动作规划的精细度,实现机器人操作的空间平滑性与时间连贯性统一。 二、 核心设计与技术细节 2.1 整体框架 VLA-4D的核心创新在于双重视空融合:将4D(3D空间+1D时间)信息嵌入视觉表征用于推理,将时间变量融入动作表征用于规划,通过多模态对齐让大语言模型 (LLM)输出时空连贯的动作指令(figure 2)。 2D VLA模型依赖单帧图像输入,视觉推理粗糙,且存在2D-3D坐标不匹配问题,导致动作空间精度不足、时空不连续(figure 1a); 3D VLA模型虽将3D位置嵌入视觉特征以提升空间平滑性,但缺乏对时间维 ...