Workflow
多图数学推理
icon
Search documents
大模型全军覆没,中科院自动化所推出多图数学推理新基准 | CVPR 2025
量子位· 2025-03-11 05:24
量子位 | 公众号 QbitAI 挑战多图数学推理新基准,大模型直接全军覆没?! 事情是这样的。 近日,中国科学院自动化研究所推出 多图数学推理全新基准MV-MATH (该工作已被CVPR 2025录用),这是一个精心策划的多图数学推理 数据集,旨在全面评估MLLM(多模态大语言模型)在多视觉场景中的数学推理能力。 结果评估下来发现,GPT-4o仅得分32.1,类o1模型QvQ得分29.3,所有模型均不及格。 MV-MATH团队 投稿 | Statistics | Number | | --- | --- | | Total Questions | 2009 | | * multiple-choice questions | 1109 | | *Free-form questions | 900 | | -one-step questions | 800 | | -multi-step questions | 100 | | Questions in the testmini set | 200 | | Difficulties (Easy: Medium: Hard) | 27%:48%:25% | | T ...