小学数学题,大模型集体不及格!达摩院推出新基准VCBench
量子位·2025-05-22 14:29
大模型做数学题的能力很强,可是它们真的能够理解基本的数学原理吗? 拿小学生的数学题进行测试,人类平均得分为93.30%,而大模型的表现让人意外: 闭源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)的综合表现最佳,但仍未突破50% 准确率。 why? 因为大模型可能并不能真正理解基本数学元素和视觉概念。 现有的视觉数学基准测试主要集中在知识导向的评估上,容易受到大型语言模型中预先嵌入的知识的影响。 上述结论来自达摩院推出的新基准 VCBench ——这是一个专为评估 具备显式视觉依赖性的多模态数学推理任务 而设计的综合基准。 VCBench团队 投稿 量子位 | 公众号 QbitAI 该基准主要面向小学 1-6 年级的数学问题,即 并不涉及复杂的数学或几何推理,但高度依赖于显式的视觉依赖性 的问题。 解决这种问题,需要模型识别和整合图像中的视觉特征,并理解不同视觉元素之间的关系。 △ 论文标题:Benchmarking Multimodal Mathematical Reasoning with Explicit ...