最新分层VLA模型:使用失败的演示数据,也能优化VLA模型!
具身智能之心·2025-12-05 16:02
作者丨 Jeonguen Park等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 研究背景与核心问题 现有VLA模型的局限 视觉-语言-动作(VLA)模型是机器人操作任务的核心技术,传统模型依赖人类遥控收集的成功演示数据训练,但数据采集过程中自然产生的大量失败尝试(如抓 取不稳定、碰撞等)常被当作噪声丢弃。这些失败数据蕴含着政策脆弱点的关键信息——揭示了哪些动作序列不可行、哪些场景下容易出错,而单纯依赖成功数据 的模型难以应对复杂环境中的不确定性,在未见过的场景中鲁棒性大幅下降。 核心挑战与研究目标 核心挑战在于如何有效整合离线数据中的失败信号:模仿学习(IL)中直接惩罚易失败动作容易扭曲政策,而强化学习(RL)虽能通过奖励信号自然处理失败数 据,但需要合适的框架承载。研究目标是构建一个分层VLA模型,将失败经验转化为结构化学习信号,通过显式的规划机制实现"失败感知推理",在不改变机器人 核 ...