GPT-5争议、开源追赶、能力飞跃:Epoch AI年终报告揭示AI能力加速
3 6 Ke·2025-12-25 03:36

12月25日消息,专注于人工智能基准测试的非营利组织Epoch AI发布的年终报告显示,整体来看,AI模型的能力正在快速提升。 顶尖国际模型如GPT、Gemini在专家级数学难题FrontierMath上表现优异,但在真正高难度问题面前仍未满分,显示出推理能力仍有提升 空间。与此同时,AI推理能力和强化学习的进步让增长速度几乎翻倍,成本大幅下降,许多模型已能在消费级硬件上运行。 在此背景下,中国开源大模型也有所进步,但与国际顶尖模型相比仍存在明显差距。在FrontierMath测试中,绝大多数中国模型几乎未能 得分,最高也只有DeepSeek-V3.2取得约2%的成绩。这表明,中国模型虽然在追赶,但在处理真正复杂难题时仍面临挑战。 01 中国模型的"七个月追赶":开源力量正在重塑格局 中国模型的最高分仍落后全球前沿水平约七个月 在Epoch AI的FrontierMath最新评测中,中国开源模型交出了一份令人瞩目的答卷。FrontierMath是一个由专家数学家精心设计的高难度 数学基准测试,涵盖数论、实分析、代数几何、范畴论等现代数学主要分支。完整数据集包含350道问题,其中300道为基础集(第1-3 层) ...