免训练!使用贝叶斯去微调VLM,机器人操作任务取得SOTA!
具身智能之心·2025-12-03 03:47

点击下方 卡片 ,关注" 具身智能 之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 点击按钮预约直播 视觉语言模型(VLM)的最新进展显著提升了在具身任务(如目标分解与视觉理解)中的性能。然而,在不对VLM进行微调的情况下,为机器人操作任 务提供精确的奖励仍颇具挑战。这主要是因为预训练数据集中缺乏领域特定的机器人知识,且高昂的计算成本阻碍了其实时应用。为此,研究人员提出 T²-VLM ——一种新颖的、无需训练且具有时序一致性的框架,通过跟踪VLM推导出的子目标状态变化来生成精确的奖励。 本工作首先在每轮交互前查询VLM,以建立空间感知的子目标及初始完成度估计。随后,采用贝叶斯跟踪算法,利用子目标隐藏状态动态更新目标完成 状态,从而为强化学习(RL)智能体生成结构化的奖励。该方法增强了长程决策能力,并借助RL提升了故障恢复性能。大量实验表明, T²-VLM 在两个 机器人操作基准测试中取得了最先进的性能,在降低计算消耗的同时展现了优异的奖励准确性。 我们相信,该方法不仅推动了奖励生成技术的发展,也 为具身人工智能的更广泛领域做出了贡献。 直播时间: 12.3 / 19:30-20:30 直播简 ...