Workflow
学会see和act:机器人操作中的任务感知视角规划
具身智能之心·2025-08-14 00:03

点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yongjie Bai等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 研究背景与动机 现有视觉-语言-动作(VLA)模型在多任务机器人操作中,常依赖固定视角和共享视觉编码器,这会限制3D感知能力并引发任务干扰,影响鲁棒性和泛化性。 固定视角在复杂场景中问题突出:在杂乱或动态环境中,固定相机易导致目标物体或末端执行器被遮挡,使场景理解不完整,进而导致动作预测不准确。例 如"把糖放进橱柜"的任务中,固定摄像头的前视图可能只拍到橱柜,左右肩视图只拍到被夹持的糖,无法同时覆盖关键信息,可能导致操作失败。 共享编码器的局限同样明显:即使是语言条件的 Transformer 方法(如 RVT、RVT-2),其共享编码器在处理视觉和语义差异大的任务(如"摘苹果"与"开抽屉") 时,会因任务干扰限制模型在多任务中的泛化性和扩展性。 核心方法:TAVP 框架 为解决上述问题,我们提出任务感知视图规划( ...