Workflow
AlphaProof
icon
Search documents
“深层思维”宣布人工智能测试得分达国际数学奥赛金牌水平
Xin Hua She· 2025-07-22 07:30
新华社伦敦7月22日电 谷歌旗下"深层思维"公司21日宣布,其搭载了"深度思考"能力的高级版"双子座 (Gemini)"人工智能模型测试得分达到国际数学奥林匹克竞赛(IMO)金牌水平,该成绩已获官方认 证。 "深层思维"公司推出的人工智能模型AlphaProof与AlphaGeometry 2组合解答了2024年国际数学奥林匹克 竞赛6道题中的4道,以28分的成绩达到当年银牌水平。为了让这两个模型理解题目,专家先将题目从自 然语言翻译成特定计算机语言,解题总共耗费两到三天的计算时间。今年,高级版"双子座"测试成果相 比去年有显著进展,它直接根据自然语言描述的题目给出数学证明,并在竞赛时限内完成挑战。竞赛协 调员采用与学生选手解题方案相同的标准对其进行正式评分和认证。 "深层思维"公司说,今年取得的成果得益于高级版"双子座"的"深层思考"模式——这是一种针对复杂问 题的增强推理模式,融合了"并行思维"等最新技术。这种模式设置可使模型在给出最终答案之前,同时 探索并整合多种可能的解决方案,而非沿着单一、线性思路推进。(完) "我们可以证实,谷歌'深层思维'已达成这一备受期待的里程碑,在总分42分中获得35分——这 ...
DeepMind夺得IMO官方「唯一」金牌,却成为OpenAI大型社死现场
机器之心· 2025-07-22 04:25
机器之心报道 机器之心编辑部 今年的突破来自 Gemini Deep Think,这是一个增强型推理系统,采用了研究人员所谓的并行思维。与遵循单一推理链的传统人工智能模型不同,Deep Think 会同 时探索多种可能的解决方案,最终得出答案。 哈萨比斯在后续帖子中解释道:谷歌的模型以自然语言进行端到端运行,直接从官方问题描述中生成严格的数学证明。并强调,该系统在比赛标准的 4.5 小时时限 内完成了任务。 刚刚,谷歌 DeepMind 宣布,其新一代 Gemini 进阶版模型在 IMO 竞赛中正式达到金牌得主水平,成功解决了六道超高难度试题中的五道,拿下 35 分(满分 42 分),成为首个获得奥赛组委会官方认定为金牌的AI系统。 更重要的是,该系统首次证明人工智能无需依赖专业编程语言,仅通过自然语言理解即可攻克复杂数学难题。 谷歌 DeepMind 首席执行官哈萨比斯在社交媒体平台 X 上强调:这是官方结果! 谷歌这项成绩远超其在 2024 年的表现。当时,AlphaProof 和 AlphaGeometry 系统组合解决了六个问题中的四个,荣获银牌。 谷歌这次官宣,让 OpenAI 处于尴尬的处境,毕竟 ...
全球首个IMO金牌AI诞生!谷歌Gemini碾碎奥数神话,拿下35分震惊裁判
猿大侠· 2025-07-22 03:33
转自:新智元 编辑:编辑部 【导读】 谷歌DeepMind奥数夺金了,得到IMO官方认证!新模型Gemini Deep Think仅用自然语言,在4.5小时攻克了5题,拿下35分。这次,具体解题过程也一并公开了。 今天,谷歌DeepMind正式官宣拿下IMO金牌! 他们凭借Gemini Deep Think(高阶版),一个通用模型,成功破解前5题,斩获35分(满分42分)。 而且, AI在极限4.5小时之内,就达到了IMO金牌标准。 最最重要的是,Gemini仅用纯自然语言——英语完成了解题。 与 OpenAI 不同的是,这一结果得到了IMO组委会官方认证。 Demis Hassabis连发两弹,一再强调「谷歌模型是首个获得官方金牌级别认可的AI系统」。 谷歌DeepMind,正式摘金 作为数学界的奥林匹克,IMO自1959年以来每年举办一次,每年吸引了全球各界优秀的学生参与。 参赛者需在4.5小时内解决6道极具深度的数学问题,涵盖代数、几何、组合数学和数论。 而且只有排名前8%的选手才能摘得金牌,象征着无上的学术荣耀。 2024年,AlphaProof和AlphaGeometry 2破解了6题中的4题,获得 ...
陶哲轩回应OpenAI新模型IMO夺金!GPT-5测试版也曝光了
量子位· 2025-07-20 02:49
梦晨 西风 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI最新模型曝光了,在2025年国际数学奥林匹克竞赛(IMO)上达到了 金牌 水平! IMO被公认为全球最顶尖的数学竞赛,每年只有不到8%的参赛者能够获得金牌。而现在,一个AI模型做到了。 新模型最终成绩:新模型在总共6道题中成功解决了5道,获得35分(满分42分),超过了今年的金牌线。 OpenAI员工 Alexander Wei 还透露, GPT-5即将发布 ,但IMO金牌模型是一个实验性研究,在几个月内都没有计划发布。 他特别强调,这次成功并非依靠针对特定任务的狭隘方法,而是在通用强化学习和测试时计算扩展方面取得了新突破。 与此同时,第三方机构的开源代码中被发现 GPT-5-reasoning-alpha-2025-07-13 的字样。 这段代码被挖出来后很快就被删除或隐藏,结合OpenAI在新模型发布前会找第三方机构进行安全测试的惯例—— 种种迹象表明, GPT-5离我们不远了 。 35分斩获金牌,解题过程完全模拟人类考试 具体来看OpenAI的实验性新模型,这次评测可不是随便做个题那么简单。 OpenAI团队让模型在与人类选手完全相 ...
“AI登月时刻”,OpenAI模型摘取奥数金牌
Hu Xiu· 2025-07-20 01:41
重大意义在于,这是一个通用推理模型,而不是一个专门用来解数学题的专门系统,也没有经过验证的奖励信号,即它不是依赖于"有标准答案、实时打 分的奖励"来学会的,而是靠更通用的推理和新技术,在长时间复杂的过程中,做出了正确的推理和证明。 OpenAI证明,尽管经历了Meta疯狂的挖角,它依然保持了顶尖研究人才的密度,做出重大的研究突破。本周OpenAI的模型o3 alpha在AtCoder世界巡回赛 2025决赛中仅逊于人类编程奇才Psyho,获得第二名;测试中强于o3 pro,是最好的编程及物理模型。 这样,OpenAI目前拥有了最强的编程及数学模型,让它再次碾压DeepMind,Anthropic,Grok等,也再次与中国引领的开源模型拉开了差距。 OpenAI的一个通用推理模型,在刚结束的国际奥林匹克数学竞赛(IMO)中达到了金牌的水平。AI登月时刻,社交媒体一夜无眠,AI圈子沸腾了。 在与人类参赛者完全相同的规则下,OpenAI的模型挑战了2025年IMO试题:两场各4.5小时的考试、禁用任何工具和互联网、只能阅读官方题面并以自然 语言撰写完整证明。模型完整解出了6题中的5题。每道题都由三位前IMO奖牌得主 ...
大模型IMO25数学竞赛成绩公布了
量子位· 2025-07-18 06:16
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI Gemini 2.5 Pro拔得头筹,大模型挑战IMO 2025的成绩出炉了! 经过人工评判, Gemini以超30%的总成绩断崖式领先 ,超出第二名89%。 o3和o4-mini则位列第二、三名,Grok 4得分只有11.9,但成本比Gemini还高出了22%。 还有网友想到了之前拿下IMO银牌的AlphaProof,好奇如果让它来挑战结果会怎样。 下面就来了解下这场测试的详细情况~ 统一环境,双人匿名评估 这场测试由 MathArena 组织,基于模其在MathArena竞赛中的既往表现,选择的被测模型包括Gemini 2.5 Pro、o3(high)、o4-mini (high)、Grok 4和DeepSeek-R1(0528)。 为了公平,测试对所有被测模型采用统一的提示词模板,该模板与Open Proof Corpus评估相同。 每个模型均使用推荐的超参数运行,最大Token数量限制为64000。 | Your task is to write a proof solution to the following problem. Your pr ...
我不给人做产品,给 Agent 做 | 42章经
42章经· 2025-06-29 14:48
本文来自 Grasp 创始人雷磊的播客及分享,有删减。 曲凯: Agent 今年这波热潮其实是 Manus 带起来的,到现在为止,各种 Agent 大家已经投得不少了。那下一个热点可能在哪里? 在这个服务主体转移的过程中,人类和 AI 的行为模式确实存在区别。 我们觉得可能是 Agent Infra。 正好雷磊现在做的 Grasp 就是一个给 Agent 用的浏览器。你是怎么想到要做Agent Infra 的? 雷磊: 首先,我相信未来 Agent 的数量会不断增加,至少会达到现在 SaaS 数量的几千倍。 而且 Agent 能直接交付结果,因此它其实就是一个数字员工,我们应该把它视为像人类一样的终端用户。但因为 Agent 与人类的形态截然不同,所以当下互联网的 很多基础设施都是不适合 AI 使用的,都需要为 Agent 重构一遍。 那基于这两点,Agent Infra 就是一个非常大的市场机会。 曲凯: 那未来 Agent 和人类到底会怎么协作?你提到说 Agent 和人类完全不同,具体有哪些体现? 雷磊: 现阶段大家普遍认为 Agent 是为人类服务的,但在我看来,未来应该是人类为 Agent 服务,因 ...
AI成为数学家得力助手还要多久
Ke Ji Ri Bao· 2025-06-17 01:18
Core Viewpoint - The article discusses the current state and future potential of AI in assisting mathematical research, highlighting both advancements and limitations in AI's capabilities to solve complex mathematical problems. Group 1: AI Advancements in Mathematics - The U.S. Defense Advanced Research Projects Agency (DARPA) launched the "Exponential Mathematics" program to develop AI systems that can significantly enhance mathematical research efficiency [1] - New generation large language models (LLMs) like OpenAI's o3 and Anthropic's Claude 4 Thinking have shown improvements, performing at levels close to excellent high school students in competitions [2] - Google's AlphaProof system combines LLMs with chess AI, achieving results comparable to silver medalists in the International Mathematical Olympiad [2] - The AlphaEvolve model from Google has found solutions to long-standing mathematical and computational problems that outperform existing human methods [2] Group 2: Limitations of AI in Mathematics - Despite impressive performances, experts believe that current AI models lack the capability to assist in genuine mathematical research, as competition problems are more like intellectual games with certain patterns [2] - A test by Epoch AI revealed that LLMs struggled with high-difficulty problems designed to avoid previously seen training data, indicating significant limitations in their problem-solving abilities [3] - AI faces challenges with "super long reasoning chains," where complex problems may require millions of steps to solve, making it difficult for AI to find the correct solutions [5] Group 3: Innovative Approaches and Future Directions - Researchers are developing methods to package multiple steps into "super steps" to tackle complex problems, which has led to breakthroughs in classic unsolved problems [5][6] - The exploration of new mathematical ideas is crucial, and AI tools like AlphaEvolve can generate and refine solutions, allowing for human intervention to provide inspiration [7] - AI is seen as a potential tool for discovering new mathematical objects, but it currently lacks true creativity, with significant innovations still attributed to human mathematicians [8]
AI将受困于人类数据
3 6 Ke· 2025-06-16 12:34
Core Insights - The article discusses the transition from the "human data era" to the "experience era" in artificial intelligence, emphasizing the need for AI to learn from first-hand experiences rather than relying solely on human-generated data [2][5][10] - Richard S. Sutton highlights the limitations of current AI models, which are based on second-hand experiences, and advocates for a new approach where AI interacts with its environment to generate original data [6][7][11] Group 1: Transition to Experience Era - The current large language models are reaching the limits of human data, necessitating a shift to real-time interaction with environments to generate scalable original data [7][10] - Sutton draws parallels between AI learning and human learning, suggesting that AI should learn through sensory experiences similar to how infants and athletes learn [6][8] - The experience era will require AI to develop world models and memory systems that can be reused over time, enhancing sample efficiency through high parallel interactions [3][6] Group 2: Decentralized Cooperation vs. Centralized Control - Sutton argues that decentralized cooperation is superior to centralized control, warning against the dangers of imposing single goals on AI, which can stifle innovation [3][12] - The article emphasizes the importance of diverse goals among AI agents, suggesting that a multi-objective ecosystem fosters innovation and resilience [3][12][13] - Sutton posits that human and AI prosperity relies on decentralized cooperation, which allows for individual goals to coexist and promotes beneficial interactions [12][14][16] Group 3: Future of AI Development - The development of fully intelligent agents will require advancements in deep learning algorithms that enable continuous learning from experiences [11][12] - Sutton expresses optimism about the future of AI, viewing the creation of superintelligent agents as a positive development for society, despite the long-term nature of this endeavor [10][11] - The article concludes with a call for humans to leverage their experiences and observations to foster trust and cooperation in the development of AI [17]
AI将受困于人类数据
腾讯研究院· 2025-06-16 09:26
晓静 腾讯科技《AI未来指北》特约作者 2025 年 6 月 6 日,第七届北京智源大会在北京正式开幕,强化学习奠基人、2025年图灵奖得主、加拿 大计算机科学家Richard S. Sutton以"欢迎来到经验时代"为题发表主旨演讲,称我们正处在人工智能史上 从"人类数据时代"迈向"经验时代"的关键拐点。 Sutton指出,当今所有大型语言模型依赖互联网文本和人工标注等"二手经验"训练,但高质量人类数据 已被快速消耗殆尽,新增语料的边际价值正急剧下降;近期多家研究也观察到模型规模继续膨胀却收效 递减的"规模壁垒"现象,以及大量科技公司开始转向合成数据。 以下为演讲全文: 当前大型模型已逼近"人类数据"边界,唯有让智能体通过与环境实时交互来生成可随能力指数级扩 张的原生数据,AI 才能迈入"经验时代" 。 真正的智能应像婴儿或运动员那样在感知-行动循环中凭第一人称经验自我学习 。 强化学习范例(如 AlphaGo、AlphaZero)已证明从模拟经验到现实经验的演进路径,未来智能体 将依靠自生奖励和世界模型实现持续自我提升 。 基于恐惧的"中心化控制"会扼杀创新,多主体维持差异化目标并通过去中心化合作实现双赢 ...