Workflow
Kimi k1.5
icon
Search documents
十大推理模型挑战2025年高考数学题:DeepSeek-R1、腾讯混元T1并列第一,马斯克的Grok 3遭遇“滑铁卢”
Mei Ri Jing Ji Xin Wen· 2025-06-10 13:53
2025年高考大幕虽已落下,但关于数学科目难度的讨论热度不减。 《每日经济新闻》记者(以下简称"每经记者")选取今年的全国新课标数学I卷作为考题,对DeepSeek-R1、腾讯混元T1、OpenAI的o3、谷歌的Gemini 2.5 Pro和xAI的Grok3等十款AI推理大模型进行了测评,以检验当今主流AI推理大模型的数学能力。 测评结果显示,国产大模型DeepSeek-R1与腾讯混元T1以零错误并列榜首。而被马斯克称为"地表最强AI"的Grok 3却遭遇"滑铁卢",排名倒数第三。 本次测评以2025年全国新课标数学I卷(总分150分)作为考题。但每经记者在测试中发现,部分AI推理模型以"重要考试期间"为由拒绝对包含试题的图片进 行识别和解答。 为了让所有参评大模型站在同一起跑线,测评移除了试卷中所有需要分析图形和图表的题目,形成一份有效总分为117分的标准化试卷。 同时,对于谷歌Gemini 2.5 Pro等没有这一限制的推理模型,仍将以150分的完整试卷进行测试,旨在测试推理大模型所能达到的最高水平。 扣分标准上,每经记者在选择题和填空题上都遵循了高考评卷的扣分标准,但对于解答题,本次测评只根据结果计算 ...
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文
机器之心· 2025-05-24 03:13
选自Nathan Lambert博客 机器之心编译 作者: Nathan Lambert 本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点,读完会对 GRPO 及其改进算法有更深的理解,进 而启发构建推理模型的新思路。 随着 DeepSeek R1 的持续爆火,推理和强化学习已经成为 AI 领域的热门词汇。 短短几个月的时间,我们已经见证了太多的推理大模型,AI 更新迭代速度似乎已经快进到了以天为单位。 但在众多研究成果中找到值得关注的内容并不容易。 这有一篇价值非常高的博客,可以帮你梳理最近关于推理模型的研究,重点关注 DeepSeek R1 里用到的 GRPO 及后续的改进算法,非常值得一读。作者是来自 AI2 的 ML 科学家 Nathan Lambert,他博士毕业于 UC 伯克利,曾在 HuggingFace 领导 RLHF 团队。 博客地址:https://www.interconnects.ai/p/papers-im-reading-base-model-rl-grpo 文章列举了最近比较火的论文和大模型,包括: 此外,作 ...
中国AI最大门派
投资界· 2025-02-27 07:06
以下文章来源于数字力场 ,作者佘宗明 数字力场 . 从Kimi到DeepSeek,从清华到浙大。 作者 | 佘宗明 运营 | 李玩 来源 | 数字力场 (ID: shuzilichang) 这两天,TMT圈有两则消息备受关注: 一是马斯克打响了「对DeepSeek反击战」——他掌舵的xAI,推出了Grok 3大模型。 20万卡集群训练、超DeepSeek-R1和GPT4o登顶竞技场(lmarena.ai)榜单、马斯克称其为「地表最聪明AI」、因回答「9.11比 9.9大」而翻车……在马斯克热搜圣体加持下,Grok 3成功制造出了一堆话题,包括#全球华人决战AI之巅#。 从Grok 3发布会图片可以看到,坐镇C位的正是两位华人科学家,其中之一就是xAI联合创始人、95后吴宇怀。 ▲Grok 3发布会上,两位华人坐镇C位,左三为吴宇怀。 由此深扒可知,xAI的12名创始成员中,华人占了4席,除了吴宇怀以外,还有本科毕业于清华大学的前谷歌科学家戴子航、本科毕业 于浙江大学的前DeepMind科学家张国栋和哈佛数学天才杨格。 二是「杭州六小龙」之一群核科技启动IPO,冲击「全球空间智能第一股」。 抵抗熵增,打捞有趣。 ...