EVOLVE-VLA:VLA模型测试时训练,突破模仿学习瓶颈
具身智能之心·2025-12-18 00:07

点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zechen Bai等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 一、研究背景与动机 现有VLA模型的核心困境 视觉-语言-动作(VLA)模型借助大型语言模型(LLM)的语义先验,在机器人操作任务中取得了显著进展,但当前主流的监督微调(SFT)训练范式存在两大根 本性局限: 人类学习范式的启发 人类掌握操作技能的核心是"通过实践学习"——反复尝试、从环境中获取反馈、逐步修正动作。这与SFT的"静态模仿学习"形成鲜明对比,因此,让VLA模型在部 署阶段通过环境交互实现持续学习,成为突破现有局限的关键方向。 核心挑战 测试时训练(TTT)的核心障碍是 缺乏Oracle奖励信号 (训练时的模拟器真值成功信号在部署时不可用)。直接使用朴素的进度估计器会产生噪声信号,可能误导 政策优化,尤其在长视野任务中,噪声累积会严重影响学习效果。 二、核心创新点 1. 测试时自主反馈机制 :用预训练的进 ...