Hand3D数据集
Search documents
突破2D-3D鸿沟!北大提出VIPA-VLA,视频解锁机器人精准操控
具身智能之心· 2025-12-26 00:55
编辑丨 机智流 当我们用手机拍摄一段 "拿起杯子放进抽屉" 的视频时,大脑能瞬间从 2D 画面中捕捉到杯子的位置、距离、手的运动轨迹等 3D 空间信 息。但对于依赖视觉-语言-动作(VLA)模型的机器人来说,这却是一个巨大的挑战——它们只能从 2D 像素中解读语义,却难以建立与 3D 物理世界的有效关联,就像蒙上双眼在三维空间中摸索,常常出现"抓空""放偏"等操作失误的尴尬局面。 这一"2D 感知与 3D 动作脱节"的问题,长期制约着机器人技术的落地应用。现有 VLA 模型大多依赖 2D 视觉输入制定行动策略,却要在真 实的 3D 物理环境中执行任务,这种感知与行动的割裂,导致机器人的空间定位精度低、任务通用性差,难以适应复杂多变的现实场景。如 何让机器人像人类一样,从 2D 视觉信息中精准推断 3D 空间关系,成为机器人学习领域亟待突破的核心难题。 针对这一问题,来自 北京大学 、 中国人民大学 和 BeingBeyond(北京智在无界) 的研究团队提出了一种全新的空间感知VLA预训练范 式,通过人类演示视频的视觉-物理对齐,让模型在学习机器人策略前就掌握3D空间理解能力。他们构建了Hand3D数据集,设计 ...