Mathematical Reasoning

Search documents
小学数学题,大模型集体不及格!达摩院推出新基准VCBench
量子位· 2025-05-22 14:29
大模型做数学题的能力很强,可是它们真的能够理解基本的数学原理吗? 拿小学生的数学题进行测试,人类平均得分为93.30%,而大模型的表现让人意外: 闭源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)的综合表现最佳,但仍未突破50% 准确率。 why? 因为大模型可能并不能真正理解基本数学元素和视觉概念。 现有的视觉数学基准测试主要集中在知识导向的评估上,容易受到大型语言模型中预先嵌入的知识的影响。 上述结论来自达摩院推出的新基准 VCBench ——这是一个专为评估 具备显式视觉依赖性的多模态数学推理任务 而设计的综合基准。 VCBench团队 投稿 量子位 | 公众号 QbitAI 该基准主要面向小学 1-6 年级的数学问题,即 并不涉及复杂的数学或几何推理,但高度依赖于显式的视觉依赖性 的问题。 解决这种问题,需要模型识别和整合图像中的视觉特征,并理解不同视觉元素之间的关系。 △ 论文标题:Benchmarking Multimodal Mathematical Reasoning with Explicit ...
DeepSeek开源新模型,数学推理能力大提升
Hu Xiu· 2025-05-01 00:48
赶在五一假期前夕,DeepSeek给我们送出一份惊喜大礼。 延续一贯的开源节奏,DeepSeek在Hugging Face正式发布DeepSeek-Prover-V2,并同步上线模型卡及示例代码。此次共推出两个版本: *核心贡献者†在DeepSeek-AI实习期间完成的工作 据官方论文披露,DeepSeek-Prover-V2的训练核心是"递归+强化学习"的组合:即先由DeepSeek-V3拆解复杂定理,生成一系列子目标和推理思路;再通过 GRPO算法,从多种候选方案中自动学习如何选出最优解。 模型特别引入了两种互补的"解题风格": DeepSeek-Prover-V2-7B:基于上一代V1.5模型,支持最长32K上下文输入; DeepSeek-Prover-V2-671B:在DeepSeek-V3-Base基础上训练,推理性能最强。 训练过程分为两阶段,在第一阶段,研究人员主要训练快速模式,采用"专家迭代"方法:模型先尝试解决难题,成功的答案再作为新数据反哺模型,不断 打磨自己的能力。 待快速模式趋于稳定后,研究人员进入第二阶段,开始训练更复杂的逻辑推理能力。他们将DeepSeek-V3的数学知识迁移到新模 ...