单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体
 3 6 Ke·2025-10-29 08:55
在灵巧手通用抓取的研究中,由于动作空间维度高、任务具有长程探索特征且涉及多样化物体,传统强化学习(RL)面临探索效率低、奖励函数及训练 过程设计复杂等挑战。 基于此,北京大学及BeingBeyond团队提出DemoGrasp框架—— 一种简单且高效的通用灵巧手抓取学习方法。 该方法以一次成功的抓取演示轨迹为起点,通过对轨迹中的机器人动作进行编辑,以适应不同物体与姿态:改变腕部位姿用于确定"抓取位置",调整手指 关节角度用于确定"抓取方式"。 这一核心创新——将连续决策的多步MDP(马尔可夫决策过程)重构为基于轨迹编辑的"单步MDP"——有效提升了强化学习在抓取任务上的学习效率和 迁移到真机的性能。 核心设计:单条演示 + 单步 RL 从"多步探索"到"全局编辑" 传统RL的困境:高维动作空间的复杂探索 DemoGrasp 的核心创新在于用 "单条成功演示轨迹" 替代 "从零开始的探索",将高维抓取任务转化为 "演示编辑任务",再通过单步 RL 优化编辑参数,最 终结合视觉模仿学习实现虚实迁移。 动作空间:每一步都需要输出高自由度机器人所有关节的指令。 奖励设计:需要设计极其复杂的密集奖励函数,引导机器人避开碰 ...
