Workflow
会“思考”的目标检测模型来了!IDEA提出Rex-Thinker:基于思维链的指代物体检测模型,准确率+可解释性双突破
机器之心·2025-06-30 10:23

图 1 :指代检测的应用场景实例 最近, IDEA 提出全新解决方案 Rex-Thinker ,首次将人类思维中的 "逻辑推理链" 引入视觉指代任务,让 AI 像人一样分步思考、验证证据,在权威测评中不仅准 确率显著提升,更展现出强大的 "知之为知之" 能力! Caption : Rex-Thinker 的思考过程 在日常生活中,我们常通过语言描述寻找特定物体:"穿蓝衬衫的人""桌子左边的杯子"。如何让 AI 精准理解这类指令并定位目标,一直是计算机视觉的核心挑 战。现有方法常被两大问题困扰: 决策过程不透明 ("黑箱" 预测)和 拒识能力不足 (对不存在物体输出错误结果)。 Demo论文地址: https://arxiv.org/abs/2506.04034 突破在哪?让 AI 学会 "思考三步走" 传统模型直接输出目标检测框,而 Rex-Thinker 创新性地构建了可解释的推理框架: 1. 规划 (Planning) 拆解语言指令:"找到坐在乌龟上的人" → 分解为 "第一步找到乌龟 → 第二步判断每个人是否坐在乌龟上" 2. 验证 (Action )对每个候选目标(如 "Person 1""Perso ...