OnePoseViaGen框架
Search documents
 让机器“看懂”物体如何摆放:单视图3D生成新框架,解决机器人空间感知核心难题
 机器人大讲堂· 2025-09-30 10:09
你有没有想过,快递机器人分拣包裹时,是如何精准判断该把哪个包裹放进哪个货架的?当维修工戴上 AR 眼镜检修机器,眼前的虚拟图纸为何能严丝合缝 地"贴"在零件上?这些酷炫场景的背后,都离不开一项关键技术—— 6D 位姿估计 。 简单来说,它就是让机器不仅能感知物体 "在哪儿"( 3D 位置),还能识 别它"怎么摆"( 3D 姿态)。就像我们一眼就能看出杯子是立着还是倒着、离自己有多远一样,机器也正在学会这样的空间洞察力。 这项技术的重要性不言而喻。工业机器人需要它来精准抓取零件;自动驾驶汽车依靠它识别周围车辆的位置和朝向; AR 应用则用它将虚拟物体准确叠加到真实世 界中。 然而,这项任务在现实环境中仍然极其困难:预扫描的 CAD 模型很少可用,多视图捕获不切实际,单视图重建存在尺度模糊性。因此,尽管从单幅图像进行可靠 的一次性 6D 姿态估计在模拟中起着核心作用,但长期以来人们一直认为它几乎是不可能的。 而机器人与物理世界的交互,恰恰依赖这种精准的空间感知。 近期,由北京智源研究院、清华大学、南洋理工大学等机构联合提出 的 OnePoseViaGen 框架 , 创新性地将单视图 3D 生成与生成式领域随机化相 ...