6D位姿估计
Search documents
 智源研究院开源单图高精度6D位姿估计方法
 Bei Jing Shang Bao· 2025-10-27 13:04
针对这一挑战,北京智源人工智能研究院(BAAI)可控世界模型创新中心赵昊团队提出了 OnePoseViaGen:该方法无需预设 3D 模型,仅依赖单张RGBD参考图像,即可在未知物体上实现高精 度 6D 位姿估计。相关论文 "One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation"入选 CoRL 2025 Oral。 北京商报讯(记者 魏蔚)10月27日,智源研究院宣布,单图高精度6D位姿估计方法开源,让机器人"一 眼看懂"陌生物体。传统6D位姿估计方法大多依赖高质量CAD模型或多视角重建,难以满足动态、实时 的实际需求。现有的单张图像推理方法则普遍受限于尺度、外观和姿态的模糊性。正因如此,尽管近年 来视觉-语言-动作(VLA)模型在宽容度较高的任务中取得进展,但在毫米级精度的操作场景中,感知 —控制链条仍难以闭合,制约了机器人通用操作能力的进一步提升。 ...
 让机器“看懂”物体如何摆放:单视图3D生成新框架,解决机器人空间感知核心难题
 机器人大讲堂· 2025-09-30 10:09
你有没有想过,快递机器人分拣包裹时,是如何精准判断该把哪个包裹放进哪个货架的?当维修工戴上 AR 眼镜检修机器,眼前的虚拟图纸为何能严丝合缝 地"贴"在零件上?这些酷炫场景的背后,都离不开一项关键技术—— 6D 位姿估计 。 简单来说,它就是让机器不仅能感知物体 "在哪儿"( 3D 位置),还能识 别它"怎么摆"( 3D 姿态)。就像我们一眼就能看出杯子是立着还是倒着、离自己有多远一样,机器也正在学会这样的空间洞察力。 这项技术的重要性不言而喻。工业机器人需要它来精准抓取零件;自动驾驶汽车依靠它识别周围车辆的位置和朝向; AR 应用则用它将虚拟物体准确叠加到真实世 界中。 然而,这项任务在现实环境中仍然极其困难:预扫描的 CAD 模型很少可用,多视图捕获不切实际,单视图重建存在尺度模糊性。因此,尽管从单幅图像进行可靠 的一次性 6D 姿态估计在模拟中起着核心作用,但长期以来人们一直认为它几乎是不可能的。 而机器人与物理世界的交互,恰恰依赖这种精准的空间感知。 近期,由北京智源研究院、清华大学、南洋理工大学等机构联合提出 的 OnePoseViaGen 框架 , 创新性地将单视图 3D 生成与生成式领域随机化相 ...