从 2D 感知到 3D 预测:GeoPredict 重构VLA模型的几何推理能力
具身智能之心·2025-12-25 01:41

点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jingjing Qian等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人操纵领域,视觉 - 语言 - 动作(VLA)模型凭借大规模预训练数据的语义与视觉先验,实现了跨任务泛化,但长期受限于 2D-centric 的反应式决策范式, 难以应对需要精准 3D 空间推理、长时程物理一致性的复杂任务。 香港中文大学(深圳)、湖南大学、理想汽车等联合团队提出的 GeoPredict 框架 ,以 "预测性运动学 + 3D 高斯几何" 为双核心,通过 "轨迹级运动预测 - 3D 高斯 场景建模 - 训练时监督推理时轻量化" 的创新架构,首次将未来感知的几何先验注入连续动作 VLA 模型,彻底突破了传统方法的空间推理瓶颈。 论文题目:GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Preci ...