细粒度视觉推理 - filings, earnings calls, financial reports, news

细粒度视觉推理

Search documents

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

机器之心· 2025-10-21 03:43

但一个朴素而尖锐的问题始终横在面前：当视觉信息变得极其繁复、结构密集，模型究竟能不能「看懂图」？比如以高分辨率地铁图为代表的真实场景，既要求精细的视觉感知，又要求跨线路、跨站点的空间推理。来自该团队的前向工作 ReasonMap 首次系统揭示了这一问题：在高分辨率地铁图等真实场景下，即使最先进的 MLLMs 也频繁在跨线路、跨站点的路径规划中出现「看错线」「漏站」「重复路线」等推理幻觉。本研究由西湖大学 ENCODE Lab 牵头，联合同济大学、浙江大学和新加坡国立大学共同完成。团队在大模型强化学习与多模态推理方向具有深厚研究基础。近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。团队进一步发现，在高分辨率、信息极其密集的地铁图上，仅依靠最终答案给出成败信号的强化学习，很容易陷入奖励极度稀疏的困境：多数输出几乎得不到任何正反馈，少数「偶然对」的样本又会造成高方差梯度，训练既慢又不稳，这使得模型在长链路路径规划中频繁出现看错线、漏站、甚至重复路线的「幻觉」。为此，该团队进一步提出 RewardMap：一个围绕真实 map reasoning ...

多模态模型挑战北京杭州地铁图！o3成绩显著，但跟人类有差距

量子位· 2025-06-07 05:02

ReasonMap团队投稿量子位 | 公众号 QbitAI 近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。然而，一个关键问题仍然值得追问：多模态大模型（MLLMs），真的能"看懂图"了吗？特别是在面对结构复杂、细节密集的图像时，它们是否具备细粒度视觉理解与空间推理能力，比如挑战一下高清地铁图这种。为此，来自西湖大学、新加坡国立大学、浙江大学、华中科技大学的团队提出了一个全新的评测基准 ReasonMap 。看得出来北京、杭州的地铁图难倒了一大片模型。这是首个聚焦于高分辨率交通图（主要为地铁图）的多模态推理评测基准，专为评估大模型在理解图像中细粒度的结构化空间信息方面的能力而设计。结果发现，当前主流开源的多模态模型在ReasonMap上面临明显性能瓶颈，尤其在跨线路路径规划上常出现视觉混淆或站点遗漏。而经强化学习后训练的闭源推理模型（如 GPT-o3）在多个维度上显著优于现有开源模型，但与人类水平相比仍存在明显差距。在面对不同国家地区的地铁图中，四个代表性 MLLM（Qwen2.5-VL-72B-I（蓝色）、 I ...