Workflow
TACTILE-VLA:激活VLA模型的物理知识以实现触觉泛化(清华大学最新)
具身智能之心·2025-07-15 07:55

点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 x 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 提出背景与核心问题 视觉-语言-动作模型凭借其强大的语义理解和跨模态泛化能力,已成为通用型机器人代理研发的核心驱动力。这 类模型依托预训练的视觉-语言backbone网络,能够解读抽象指令并在多种任务中展现出优异的泛化性能。然 而,现有VLA模型在接触密集型场景中存在显著短板——难以将决策精准扎根于物理现实,尤其在需要精细力 控制的交互任务中表现乏力。 造成这一局限的关键原因在于 触觉感知的缺失 。与视觉和语言提供的高层语义信息不同,触觉感知能传递物理 交互中丰富、局部且动态的反馈,如摩擦、柔顺性和材料特性等,这些信息对涉及接触的操作任务至关重要。尽 管已有研究尝试将触觉纳入机器人系统,但多将其视为补充性感知模态,未能真正实现与决策过程的深度融合。 针对这一问题,Tactile-VLA旨在通过深度融合视觉、语言、动作与触觉感知,激活VLA模型中隐含的物理知 识,实现接触密集型任务中的精准力控制与泛化能力。 更多干货,欢迎加入国内首个具身智能全栈学 ...