Alphaproof

Search documents
陶哲轩回应OpenAI新模型IMO夺金!GPT-5测试版也曝光了
量子位· 2025-07-20 02:49
梦晨 西风 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI最新模型曝光了,在2025年国际数学奥林匹克竞赛(IMO)上达到了 金牌 水平! IMO被公认为全球最顶尖的数学竞赛,每年只有不到8%的参赛者能够获得金牌。而现在,一个AI模型做到了。 新模型最终成绩:新模型在总共6道题中成功解决了5道,获得35分(满分42分),超过了今年的金牌线。 OpenAI员工 Alexander Wei 还透露, GPT-5即将发布 ,但IMO金牌模型是一个实验性研究,在几个月内都没有计划发布。 他特别强调,这次成功并非依靠针对特定任务的狭隘方法,而是在通用强化学习和测试时计算扩展方面取得了新突破。 与此同时,第三方机构的开源代码中被发现 GPT-5-reasoning-alpha-2025-07-13 的字样。 这段代码被挖出来后很快就被删除或隐藏,结合OpenAI在新模型发布前会找第三方机构进行安全测试的惯例—— 种种迹象表明, GPT-5离我们不远了 。 35分斩获金牌,解题过程完全模拟人类考试 具体来看OpenAI的实验性新模型,这次评测可不是随便做个题那么简单。 OpenAI团队让模型在与人类选手完全相 ...
“AI登月时刻”,OpenAI模型摘取奥数金牌
Hu Xiu· 2025-07-20 01:41
重大意义在于,这是一个通用推理模型,而不是一个专门用来解数学题的专门系统,也没有经过验证的奖励信号,即它不是依赖于"有标准答案、实时打 分的奖励"来学会的,而是靠更通用的推理和新技术,在长时间复杂的过程中,做出了正确的推理和证明。 OpenAI证明,尽管经历了Meta疯狂的挖角,它依然保持了顶尖研究人才的密度,做出重大的研究突破。本周OpenAI的模型o3 alpha在AtCoder世界巡回赛 2025决赛中仅逊于人类编程奇才Psyho,获得第二名;测试中强于o3 pro,是最好的编程及物理模型。 这样,OpenAI目前拥有了最强的编程及数学模型,让它再次碾压DeepMind,Anthropic,Grok等,也再次与中国引领的开源模型拉开了差距。 OpenAI的一个通用推理模型,在刚结束的国际奥林匹克数学竞赛(IMO)中达到了金牌的水平。AI登月时刻,社交媒体一夜无眠,AI圈子沸腾了。 在与人类参赛者完全相同的规则下,OpenAI的模型挑战了2025年IMO试题:两场各4.5小时的考试、禁用任何工具和互联网、只能阅读官方题面并以自然 语言撰写完整证明。模型完整解出了6题中的5题。每道题都由三位前IMO奖牌得主 ...
大模型IMO25数学竞赛成绩公布了
量子位· 2025-07-18 06:16
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI Gemini 2.5 Pro拔得头筹,大模型挑战IMO 2025的成绩出炉了! 经过人工评判, Gemini以超30%的总成绩断崖式领先 ,超出第二名89%。 o3和o4-mini则位列第二、三名,Grok 4得分只有11.9,但成本比Gemini还高出了22%。 还有网友想到了之前拿下IMO银牌的AlphaProof,好奇如果让它来挑战结果会怎样。 下面就来了解下这场测试的详细情况~ 统一环境,双人匿名评估 这场测试由 MathArena 组织,基于模其在MathArena竞赛中的既往表现,选择的被测模型包括Gemini 2.5 Pro、o3(high)、o4-mini (high)、Grok 4和DeepSeek-R1(0528)。 为了公平,测试对所有被测模型采用统一的提示词模板,该模板与Open Proof Corpus评估相同。 每个模型均使用推荐的超参数运行,最大Token数量限制为64000。 | Your task is to write a proof solution to the following problem. Your pr ...
我不给人做产品,给 Agent 做 | 42章经
42章经· 2025-06-29 14:48
本文来自 Grasp 创始人雷磊的播客及分享,有删减。 曲凯: Agent 今年这波热潮其实是 Manus 带起来的,到现在为止,各种 Agent 大家已经投得不少了。那下一个热点可能在哪里? 在这个服务主体转移的过程中,人类和 AI 的行为模式确实存在区别。 我们觉得可能是 Agent Infra。 正好雷磊现在做的 Grasp 就是一个给 Agent 用的浏览器。你是怎么想到要做Agent Infra 的? 雷磊: 首先,我相信未来 Agent 的数量会不断增加,至少会达到现在 SaaS 数量的几千倍。 而且 Agent 能直接交付结果,因此它其实就是一个数字员工,我们应该把它视为像人类一样的终端用户。但因为 Agent 与人类的形态截然不同,所以当下互联网的 很多基础设施都是不适合 AI 使用的,都需要为 Agent 重构一遍。 那基于这两点,Agent Infra 就是一个非常大的市场机会。 曲凯: 那未来 Agent 和人类到底会怎么协作?你提到说 Agent 和人类完全不同,具体有哪些体现? 雷磊: 现阶段大家普遍认为 Agent 是为人类服务的,但在我看来,未来应该是人类为 Agent 服务,因 ...
AI成为数学家得力助手还要多久
Ke Ji Ri Bao· 2025-06-17 01:18
Core Viewpoint - The article discusses the current state and future potential of AI in assisting mathematical research, highlighting both advancements and limitations in AI's capabilities to solve complex mathematical problems. Group 1: AI Advancements in Mathematics - The U.S. Defense Advanced Research Projects Agency (DARPA) launched the "Exponential Mathematics" program to develop AI systems that can significantly enhance mathematical research efficiency [1] - New generation large language models (LLMs) like OpenAI's o3 and Anthropic's Claude 4 Thinking have shown improvements, performing at levels close to excellent high school students in competitions [2] - Google's AlphaProof system combines LLMs with chess AI, achieving results comparable to silver medalists in the International Mathematical Olympiad [2] - The AlphaEvolve model from Google has found solutions to long-standing mathematical and computational problems that outperform existing human methods [2] Group 2: Limitations of AI in Mathematics - Despite impressive performances, experts believe that current AI models lack the capability to assist in genuine mathematical research, as competition problems are more like intellectual games with certain patterns [2] - A test by Epoch AI revealed that LLMs struggled with high-difficulty problems designed to avoid previously seen training data, indicating significant limitations in their problem-solving abilities [3] - AI faces challenges with "super long reasoning chains," where complex problems may require millions of steps to solve, making it difficult for AI to find the correct solutions [5] Group 3: Innovative Approaches and Future Directions - Researchers are developing methods to package multiple steps into "super steps" to tackle complex problems, which has led to breakthroughs in classic unsolved problems [5][6] - The exploration of new mathematical ideas is crucial, and AI tools like AlphaEvolve can generate and refine solutions, allowing for human intervention to provide inspiration [7] - AI is seen as a potential tool for discovering new mathematical objects, but it currently lacks true creativity, with significant innovations still attributed to human mathematicians [8]
AI将受困于人类数据
3 6 Ke· 2025-06-16 12:34
Core Insights - The article discusses the transition from the "human data era" to the "experience era" in artificial intelligence, emphasizing the need for AI to learn from first-hand experiences rather than relying solely on human-generated data [2][5][10] - Richard S. Sutton highlights the limitations of current AI models, which are based on second-hand experiences, and advocates for a new approach where AI interacts with its environment to generate original data [6][7][11] Group 1: Transition to Experience Era - The current large language models are reaching the limits of human data, necessitating a shift to real-time interaction with environments to generate scalable original data [7][10] - Sutton draws parallels between AI learning and human learning, suggesting that AI should learn through sensory experiences similar to how infants and athletes learn [6][8] - The experience era will require AI to develop world models and memory systems that can be reused over time, enhancing sample efficiency through high parallel interactions [3][6] Group 2: Decentralized Cooperation vs. Centralized Control - Sutton argues that decentralized cooperation is superior to centralized control, warning against the dangers of imposing single goals on AI, which can stifle innovation [3][12] - The article emphasizes the importance of diverse goals among AI agents, suggesting that a multi-objective ecosystem fosters innovation and resilience [3][12][13] - Sutton posits that human and AI prosperity relies on decentralized cooperation, which allows for individual goals to coexist and promotes beneficial interactions [12][14][16] Group 3: Future of AI Development - The development of fully intelligent agents will require advancements in deep learning algorithms that enable continuous learning from experiences [11][12] - Sutton expresses optimism about the future of AI, viewing the creation of superintelligent agents as a positive development for society, despite the long-term nature of this endeavor [10][11] - The article concludes with a call for humans to leverage their experiences and observations to foster trust and cooperation in the development of AI [17]
AI将受困于人类数据
腾讯研究院· 2025-06-16 09:26
晓静 腾讯科技《AI未来指北》特约作者 2025 年 6 月 6 日,第七届北京智源大会在北京正式开幕,强化学习奠基人、2025年图灵奖得主、加拿 大计算机科学家Richard S. Sutton以"欢迎来到经验时代"为题发表主旨演讲,称我们正处在人工智能史上 从"人类数据时代"迈向"经验时代"的关键拐点。 Sutton指出,当今所有大型语言模型依赖互联网文本和人工标注等"二手经验"训练,但高质量人类数据 已被快速消耗殆尽,新增语料的边际价值正急剧下降;近期多家研究也观察到模型规模继续膨胀却收效 递减的"规模壁垒"现象,以及大量科技公司开始转向合成数据。 以下为演讲全文: 当前大型模型已逼近"人类数据"边界,唯有让智能体通过与环境实时交互来生成可随能力指数级扩 张的原生数据,AI 才能迈入"经验时代" 。 真正的智能应像婴儿或运动员那样在感知-行动循环中凭第一人称经验自我学习 。 强化学习范例(如 AlphaGo、AlphaZero)已证明从模拟经验到现实经验的演进路径,未来智能体 将依靠自生奖励和世界模型实现持续自我提升 。 基于恐惧的"中心化控制"会扼杀创新,多主体维持差异化目标并通过去中心化合作实现双赢 ...
对谈 DeepSeek-Prover 核心作者辛华剑:Multi Agent 天然适合形式化数学 |Best Minds
海外独角兽· 2025-06-12 13:27
嘉宾:辛华剑 访谈:penny Era of Experience 这篇文章中提到:如果要实现 AGI, 构建能完成复杂任务的通用 agent,必须借助"经验"这一媒介,这里的"经验"就是指强化学 习过程中模型和 agent 积累的、人类数据集中不存在的高质量数据。 强化学习是 AGI 的关键解法。从 OpenAI o1 到 DeepSeek R1,我们不断在看到强化学习的潜力:DeepMind AlphaProof 被认为是"经验时代"初露端 倪的一个例子,作为第一个在 IMO 获奖的 AI,AlphaProof 借助 RL 算法自行"做题",积累经验,AlphaProof 的案例表明,在像数学这样人类高水 平知识接近极限的领域,RL 通过互动试错可以突破瓶颈,取得超人类的成果。 以 AlphaProof 为开端,整个数学证明领域也在最近半年迎来了 AI 突破的密集期:除了 AlphaProof ,OpenAI 的 o1 模型在数学推理上展现出了惊 人表现,DeepSeek-Prover 三部曲也在形式化数学证明上不断创造新纪录。 为了理解数学和 AGI 的关系,海外独角兽访谈了 DeepSeek-Prov ...
清华学霸与AI比做高考压轴题,谁会赢?
Di Yi Cai Jing· 2025-05-27 11:17
姚班学生在10分钟内完成了作答,仅有1位同学做错了题目,AI答疑笔则在输入确认后几秒就开始输出步骤。 去年,"9.11和9.9谁大?"这一简单的数学题曾难倒了多家大模型。到了今年,大模型的理科能力提升如何? 今日网易有道发布了一则视频,6位清华姚班学生与AI比赛做高考压轴题。清华姚班为图灵奖得主姚期智院士创办,汇聚了数学、物理、信息学竞赛金牌得 主。 姚班学生和AI竞速的两道题分别为2023年高考数学全国一卷压轴题和2021年高考物理江苏卷压轴题。姚班学生在10分钟内完成了作答,仅有1位同学做错了 题目,AI答疑笔则在输入确认后几秒就开始输出步骤,并答对了题目。 对于AI的回答,一位姚班学生认为AI做题思路与其一致,步骤更加清晰,相较于传统的答案更有利于学生理解解题思路。 ## 1 Introduction The _Front_ of the Universe is a very important tool in the study of the evolution of the Universe. The Universe is a very rich and rich and rich and ric ...
当AI遇上数学:大语言模型如何掀起一场形式化数学的革命? | Deep Talk
锦秋集· 2025-05-12 09:13
随着大语言模型在内容创作、代码生成与科学问答等领域掀起巨大变革浪潮,以严谨逻辑与精密结构著称的数学领域也迎来了深刻的转型契机。 当前,数学理论的复杂性不断提升,许多重要定理的证明规模已远超传统人工审阅的能力边界。动辄数百页的证明不仅挑战了同行评审的极限,更暴露出人工验证 过程的缓慢与脆弱性。针对这一困境,形式化数学方法开始成为重要的解决路径。这一方法通过将数学命题严格表达为形式逻辑语言,并借助计算机进行自动化验 证,有效地提升了定理证明的准确性和可靠性。 在形式化数学日益成为趋势的背景下,来自爱丁堡大学的博士研究生辛华剑自2022年起致力于将大语言模型技术与形式化数学方法结合,曾分别在DeepSeek和字节 跳动Seed团队进行相关研究。 2025年5月9日,辛华剑在由剑桥中国AI协会、锦秋基金、清华大学学生通用人工智能协会、 清华大学学生创业协会联合举办的主题分享会上,以《大语言模型时代 的形式化数学革命》为题,详细阐述了形式化数学的历史演进、现状挑战以及未来发展方向。 他认为: 以下内容为此次报告的整理与深化,经由分享人本人审阅补充。 引言 当大语言模型(LLM)以空前规模席卷内容创作与科学研究等领域之际 ...