端到端模型!GraphCoT-VLA:面向模糊指令的操作任务的VLA模型
具身智能之心·2025-08-13 00:04
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Helong Huang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 写在前面&出发点 VLA模型已成为机器人操作领域的关键范式。然而,现有VLA模型在处理模糊语言指令和未知环境状态时存在明显局限性。此外,它们的感知能力很大程度上局 限于静态二维观测,缺乏对机器人与环境之间三维交互的建模能力。为解决这些挑战,这里提出了GraphCoT-VLA,一种高效的端到端模型。为增强模型对模糊 指令的理解能力并改进任务规划,我们设计了结构化的思维链(Chain-of-Thought)推理模块,该模块整合了高层任务理解与规划、失败任务反馈以及对未来物 体位置和机器人动作的低层想象推理。此外,我们构建了可实时更新的3D姿态-物体图,用于捕捉机器人关节的空间配置和物体在三维空间中的拓扑关系,使模 型能更好地理解和处理它们之间的交互。我们进一步集成了dropout混合推理策略,以实现高效的控制输出。在 ...