RobustVLA
Search documents
西湖大学最新!RobustVLA:面向VLA模型的鲁棒性感知强化后训练方法(优于SOTA方案)
具身智能之心· 2025-11-08 04:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 论文链接:https://arxiv.org/abs/2511.01331 论文名称:RobustVLA: Robustness-Aware Reinforcement Post-Training for Vision-Language-Action Models 当下的痛点 RobustVLA的设计逻辑 鉴于在线强化学习交互过程中存在环境不确定性,这里考虑了观测噪声(传感器/摄像头故障)和动作噪声(高斯执行误差)及其联合效应。此外,基于这三个 方面开展了鲁棒性理论分析,确立了误差放大界限、回报漂移控制以及鲁棒稳定性保证。最后,我们推导出了正则化优化目标,包括模型雅可比矩阵正则化和动 作平滑正则化,以及鲁棒强化学习后训练目标。 视觉-语言-动作模型借助大规模多模态预训练,在机器人操作任务中展现出强大通用性,但在分布外场景中泛化能力受限。 分布外场景的核心挑战来自环境扰动,主要分为两类:观测扰动(传感器噪声、图像偏移、旋转、遮挡等)和动作扰动(执行器误差、高斯噪声等)。 现有强化学习后训练方法聚焦奖励最 ...