RSS 2025｜从说明书学习复杂机器人操作任务：NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

本文共同第一作者为新加坡国立大学博士生铁宸睿和多伦多大学研究助理/本科生孙圣翔。合作者为朱锦轩、刘益伟、郭京翔、胡越、陈浩楠、陈俊廷、吴睿海。通讯作者为新加坡国立大学计算机学院助理教授邵林，研究方向为机器人和人工智能。视觉语言模型（Vision-Language Models, VLMs），为真实环境中的机器人操作任务提供了极具潜力的解决方案。尽管 VLMs 取得了显著进展，机器人仍难以胜任复杂的长时程任务（如家具装配），主要受限于人类演示数据和训练样本的稀缺性。为解决这一问题，研究团队提出 Manual2Skill，一种基于 VLMs 的创新框架，使机器人能通过高级视觉说明书自主理解并执行家具装配任务，模仿人类学习装配的过程。该方法弥合了抽象指令与物理执行之间的鸿沟，显著提升了机器人在真实操作场景中的实用性。目前，该论文已被机器人领域顶级会议 Robotics: Science and Systems XXI（RSS 2025）接收。论文标题：Manual2Skill: Learning to Read Manuals and Acquire Robotic Skills for Furnit ...