新国大团队首创!当VLA具备4D感知能力后会怎么样?
具身智能之心·2025-12-15 03:17

点击下方 卡片 ,关注" 具身智能 之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 点击按钮预约直播 视觉-语言-动作(VLA)模型在通用机器人任务中展现出应用潜力,但在需要细粒度表征的 时空一致机器人操作 任务中仍面临诸多挑战。现有方法通常会将三 维位置信息嵌入视觉表征,以此提升动作的空间精度,然而这类方法难以实现对动作执行过程的时序一致性控制。 VLA-4D 是 一款具备4D感知能力的通用VLA模型,专门用于实现时空一致的机器人操作。 该模型的设计核心包含两大关键模块:其一为 4D感知视觉表征 ,先 提取视觉特征,再将一维时间信息嵌入三维位置信息以生成4D嵌入特征,随后通过交叉注意力机制将其融合为统一的视觉表征;其二为 时空动作表征 ,VLA- 4D为传统的空间动作表征拓展了时序信息维度,从而支持时空层面的动作规划,并将多模态表征与大语言模型(LLM)进行对齐,以完成时空动作预测。 在这一统一框架下,经特殊设计的视觉表征与动作表征可协同作用,让机器人操作既具备空间流畅性,又能保证时序一致性。此外,本工作还为现有VLA数据集 补充了时序动作标注,用于模型的微调训练。 论文标题 : VLA- ...