端到端基础模型!VCoT-Grasp: 视觉思维链增强的机器人抓取检测大模型
具身智能之心·2025-10-19 13:50
点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 思维链 (Chain-of-Thought, CoT) 是一种通过中间思考步骤增强大语言模型推理能力的方法。视觉思维链 (Visual Chain-of-Thought, VCoT) 将思维链从文 本模态扩展到图像模态,以图像作为中间思考步骤,被用来提升多模态大模型的思考能力。 (a)基于多模态融合的方法, (b)使用LLM/VLM提供指引的模块化方法, (c)带有语言推理能力的端到端多模态大模型方法, (d)我们的方法,引入视觉推理能 力,以目标的bounding box图像作为思考步骤。 VCoT-Grasp构建了一个端到端的基础模型,并引入视觉思维链来增强视觉理解能力。实际运行中,模型以目标物品的bounding box图像作为中间思考步 骤,首先预测目标的bounding box作为粗粒度位置,之后目标区域的图像被裁剪并输入模型用以提供细粒 ...