推理能力

Search documents
大模型全军覆没,中科院自动化所推出多图数学推理新基准 | CVPR 2025
量子位· 2025-03-11 05:24
量子位 | 公众号 QbitAI 挑战多图数学推理新基准,大模型直接全军覆没?! 事情是这样的。 近日,中国科学院自动化研究所推出 多图数学推理全新基准MV-MATH (该工作已被CVPR 2025录用),这是一个精心策划的多图数学推理 数据集,旨在全面评估MLLM(多模态大语言模型)在多视觉场景中的数学推理能力。 结果评估下来发现,GPT-4o仅得分32.1,类o1模型QvQ得分29.3,所有模型均不及格。 MV-MATH团队 投稿 | Statistics | Number | | --- | --- | | Total Questions | 2009 | | * multiple-choice questions | 1109 | | *Free-form questions | 900 | | -one-step questions | 800 | | -multi-step questions | 100 | | Questions in the testmini set | 200 | | Difficulties (Easy: Medium: Hard) | 27%:48%:25% | | T ...
GPT-5 有了雏形;OpenAI 和 Manus 研发 Agent 的经验;中国大公司扩大算力投资丨 AI 月报
晚点LatePost· 2025-03-08 12:17
2025 年 2 月的全球 AI 重要趋势。 文 丨 贺乾明 2025 年 2 月的 AI 月报,你会看到: 硅谷巨头的新共识:推理能力是大模型的一部分 OpenAI 和 Manus 的 Agent 开发经验 DeepSeek 推动中国大公司加大算力投入,阿里、字节两家加起来,今年就超过 2000 亿 3 家售价过亿的 AI 公司和 23 家获得超过 5000 万美元融资的 AI 公司 OpenAI 时薪 100 美元招专家生产数据提高模型能力 这一期月报中,我们开始邀请研究者、创业者和投资人提供一手视角的对每月 AI 趋势和标志性事件的评述和 洞察。 晚点 AI 月报,每月选取最值得你知道的 AI 信号。 以下是我们第 4 期 AI 月报,欢迎大家在留言区补充我们没有提到的重要趋势。 技术丨GPT-5 雏形出现,行业新共识诞生 DeepSeek 带来的冲击波继续扩散,全球大模型公司陷入混战:不论是马斯克用超过 10 万张 GPU 训练 的 Grok 3,还是 OpenAI 可能投入 10 亿美元训练的 GPT-4.5,或是 Anthropic 融合推理(reasoning) 能力的最新模型 Claude 3 ...