Workflow
推理
icon
Search documents
OpenAI发布最强模型o3-pro
第一财经· 2025-06-11 05:29
2025.06. 11 本文字数:1976,阅读时长大约3分钟 根据OpenAI内部测试,o3-pro在数学基准测试AIME 2024中超越谷歌最强的模型Gemini 2.5 Pro,在 博士级科学测试GPQA Diamond中击败Anthropic 最强的Claude 4 Opus,展现出推理模型领域的领 先性能。 不过,在X上的评论区有用户反馈,"o3 - pro什么时候能回复我的问题?已经加载了45分钟了。"显示 出推理模型的回复速度问题。 作者 | 第一财经 刘晓洁 基座模型圈的迭代已成循环,继DeepSeek和谷歌进行了一轮模型更新后, OpenAI接替开始发布新的 模型版本。 北京时间6月11日,OpenAI在X上宣布o3-pro正式上线,向Pro和Team用户开放,企业、教育用户将在 下周获得使用权限。 OpenAI CEO奥尔特曼(Sam Altman)发文称,"o3-pro太聪明了!我第一次看到它相对于 o3 的胜率 时,简直不敢相信。" 2025年,能够进行真正认知工作的代理系统将出现; 2026年,能够提出新颖见解的系统可能会出现; 2027年,能够在现实世界中执行任务的机器人可能会出现 ...
「Next-Token」范式改变!刚刚,强化学习预训练来了
机器之心· 2025-06-11 03:54
| 机器之心报道 | | --- | 编辑:张倩、陈陈 谁说强化学习只能是蛋糕上的樱桃,说不定,它也可以是整个蛋糕呢? 在 2016 年的一次演讲中,Yann LeCun 曾将强化学习比喻成蛋糕上的樱桃。他提到,「如果把智能比作一块蛋糕,那么无监督学习就是蛋糕的主体,监督学习就是 蛋糕上的糖霜,而强化学习则是糖霜上的樱桃。我们已经知道如何制作糖霜和樱桃,但却不知道如何制作蛋糕本身。」 从 2016 年至今,LeCun 对强化学习一直不看好。然而,不可否认的是,强化学习在提升 AI 模型能力方面正变得越来越重要。而且,来自微软的一项新研究显 示,它不仅在后训练阶段发挥着关键作用,甚至在预训练阶段也展现出巨大的潜力。 在这篇题为「Reinforcement Pre-Training」的论文中,作者提出了一种名为「强化预训练(RPT)」的新范式。在这种范式中,下一个 token 预测任务可以被重新定 义为一个通过强化学习训练的推理任务。在这一任务中,模型会因正确预测给定上下文中的下一个 token 而获得可验证的奖励。 这就好比在制作蛋糕的过程中,直接将樱桃融入到蛋糕的主体结构中。 作者指出,RPT 范式的好处在于 ...
Mistral AI推出首个AI推理模型
news flash· 2025-06-10 23:38
6月10日,法国科技公司Mistral AI表示,该公司推出首个AI推理模型Magistral,将以开放版和企业版两 种形式发布。Mistral AI称,该模型通过逻辑推理生成响应,同时融合跨专业领域的专业知识,提供可 追踪和验证的透明推理过程,旨在与AI发展前沿的竞争对手保持同步。(智通财经) ...
十大推理模型挑战2025年高考数学题:DeepSeek-R1、腾讯混元T1并列第一,马斯克的Grok 3遭遇“滑铁卢”
Mei Ri Jing Ji Xin Wen· 2025-06-10 13:53
2025年高考大幕虽已落下,但关于数学科目难度的讨论热度不减。 《每日经济新闻》记者(以下简称"每经记者")选取今年的全国新课标数学I卷作为考题,对DeepSeek-R1、腾讯混元T1、OpenAI的o3、谷歌的Gemini 2.5 Pro和xAI的Grok3等十款AI推理大模型进行了测评,以检验当今主流AI推理大模型的数学能力。 测评结果显示,国产大模型DeepSeek-R1与腾讯混元T1以零错误并列榜首。而被马斯克称为"地表最强AI"的Grok 3却遭遇"滑铁卢",排名倒数第三。 本次测评以2025年全国新课标数学I卷(总分150分)作为考题。但每经记者在测试中发现,部分AI推理模型以"重要考试期间"为由拒绝对包含试题的图片进 行识别和解答。 为了让所有参评大模型站在同一起跑线,测评移除了试卷中所有需要分析图形和图表的题目,形成一份有效总分为117分的标准化试卷。 同时,对于谷歌Gemini 2.5 Pro等没有这一限制的推理模型,仍将以150分的完整试卷进行测试,旨在测试推理大模型所能达到的最高水平。 扣分标准上,每经记者在选择题和填空题上都遵循了高考评卷的扣分标准,但对于解答题,本次测评只根据结果计算 ...
WaveSpeedAI 成泽毅:AI Infra 本来就是一门能挣钱的生意
Founder Park· 2025-06-10 12:59
大学毕业就去了阿里,两年升两级,火速成长,很快成为部门的技术骨干。但随着业务的逐渐深入,他开始意识到,自己似乎太快就触碰到了在大厂的天 花板,有种束手束脚的感觉。 在大厂做 Infra 的成泽毅,最开始并没有创业的打算。 对于技术人来说,相比较于安稳,更追求的是证明自己的价值,寻找更好发挥自己能力的地方。 随后他开始不断地验证,自己的技术究竟是否有用?大厂之外还有没有他发挥的空间?会不会有人想要花钱购买自己的技术? 去创业公司是一种选择,他先后加入了两家推理加速初创公司。但创业公司对于商业路线的不确定,以及「等待」市场和客户需求的心态,又让成泽毅感 受到了另外一种束缚。 最终, 依靠一个人完成的 10 万行代码的推理引擎,开始了自己的创业 ——WaveSpeedAI,一家为图片、视频生成提供推理加速的 AI Infra 创业公司。 25 年 2 月产品上线,3 月实现营收 5 万美元,4 月营收翻倍并开始盈利。预计年底可达千万美元。客户包括 Freepik、Replicate 等全球头部客户。融资方 面,在 2025 年 4 月完成了数百万美元的天使轮融资。 在成泽毅看来,当下的 infra 能够创造更大的价 ...
面壁小钢炮4.0发布:性能比肩 Qwen-3-8B,极限220倍提速
Xin Lang Ke Ji· 2025-06-10 09:37
新浪科技讯 6月10日下午消息,近日,面壁智能第四代"面壁小钢炮" MiniCPM4.0 端侧模型(代号"前进 四")发布。据悉,第四代小钢炮拥有 8B 、0.5B两种参数规模,实现了同级最佳的模型性能。可让长 文本、深思考在端侧真正跑起来,实现220倍极限加速。 据悉,MiniCPM 4.0 模型采用的InfLLMv2稀疏注意力架构改变了传统 Transformer 模型的相关性计算方 式,有效摆脱了逐字重复计算的低效,将稀疏度从行业普遍的40%-50%,降至极致的5%,注意力层仅 需1/10的计算量即可完成长文本计算。且对算子底层重写,进一步加速提升,并使得对文本相关性精准 性大大提升。 值得一提的是,DeepSeek 使用的长文本处理架构NSA(Native Sparse Attention)也引用并采用了与 InfLLM相同的分块注意力计算思路,但其对于短文本的推理较慢,InfLLMv2则很好地解决了NSA在短 文本推理上的短板。 在缓存消耗上,MiniCPM 4.0-8B在 128K 长文本场景下相较于Qwen3-8B仅需 1/4 的缓存存储空间。在速 度、性能飙升的同时,又做到了模型极致压缩,让端 ...
WWDC前夕,苹果论文“炮轰”AI推理模型“假思考”,测试方法遭质疑
Mei Ri Jing Ji Xin Wen· 2025-06-09 11:06
每经记者|宋欣悦 每经编辑|高涵 当地时间6月6日,苹果机器学习研究中心发表论文《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》。论文作者包括谷歌大脑联合创始人 Samy Bengio(图灵奖得主Yoshua Bengio的弟弟)。 该论文认为,现有的推理模型看似会"思考",但其实并没有稳定、可理解的思维过程,所谓的推理思考只是一种"幻象"。 论文发布后引发AI圈热议,被部分观点解读为"苹果否定所有大模型的推理能力"。也有研究人员提出反驳,认为苹果的测试方法存在问题。AI研究者Lisan al Gaib在复现论文中的汉诺塔测试后发现,模型根本不是因为推理能力不佳而失败,而是因为输出token限制。 图片来源:论文《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》 苹果"炮轰"AI推理模型:所谓的思考只是一种"幻象" 论文指出,OpenAI、Anthropic、谷歌和DeepSeek等公司纷纷推出带有"链式思考"(Chain-of-Thought,CoT)能力的模型,并声称它们更接近"类人思维"。 然而,该论文认为,现有的推理模型看似会"思考",但其实并没有稳定、可理解的思维过程,所谓的推 ...
从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench
AI科技大本营· 2025-06-09 10:41
数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱 受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集的污染。 为了填补这些空白,来自香港科技大学的研究团队近日发表在 ICLR 2025的最新研究 UGMathBench——首个针对本科数学的多元化动态评测体系, 专为评估 LLM 在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具,首次将数学推理评测带入「动态污染防控」时代, 标志 着 LLMs 数学推理评估从"浅层解题"迈向"深层理解"。 论文地址:https://arxiv.org/pdf/2501.13766 | AGI-Eval | 评测榜单 入人机竞赛 | 评测集社区 | Data Studio 団 | | | など | | --- | --- | --- | --- | --- | --- | --- | | | 评测集社区:UGMathBench | | | | | | | | UGMathBench ☞▩ | | | | 我要参评 | | | | UGMathBench 是 ...
从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench
AI科技大本营· 2025-06-09 09:41AI Processing
数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱 受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集的污染。 为了填补这些空白,来自香港科技大学的研究团队近日发表在 ICLR 2025的最新研究 UGMathBench——首个针对本科数学的多元化动态评测体系, 专为评估 LLM 在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具,首次将数学推理评测带入「动态污染防控」时代, 标志 着 LLMs 数学推理评估从"浅层解题"迈向"深层理解"。 论文地址:https://arxiv.org/pdf/2501.13766 | AGI-Eval | 评测榜单 入人机竞赛 | 评测集社区 | Data Studio 団 | | | など | | --- | --- | --- | --- | --- | --- | --- | | | 评测集社区:UGMathBench | | | | | | | | UGMathBench ☞▩ | | | | 我要参评 | | | | UGMathBench 是 ...
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
量子位· 2025-06-09 09:27
Core Viewpoint - The article discusses the transition of Visual Language Models (VLM) from "perception" to "cognition," highlighting the introduction of "Pixel-Space Reasoning" which allows models to interact with visual information directly at the pixel level, enhancing their understanding and reasoning capabilities [1][2][3]. Group 1: Key Developments in VLM - The current mainstream VLMs are limited by their reliance on text tokens, which can lead to loss of critical information in high-resolution images and dynamic video scenes [2][4]. - "Pixel-Space Reasoning" enables models to perform visual operations directly, allowing for a more human-like interaction with visual data [3][6]. - This new reasoning paradigm shifts the focus from text-mediated understanding to native visual operations, enhancing the model's ability to capture spatial relationships and dynamic details [6][7]. Group 2: Overcoming Learning Challenges - The research team identified a "cognitive inertia" challenge where the model's established text reasoning capabilities hinder the development of new pixel operation skills, creating a "learning trap" [8][9]. - To address this, a reinforcement learning framework was designed that combines intrinsic curiosity incentives with extrinsic correctness rewards, encouraging the model to explore visual operations [9][12]. - The framework includes constraints to ensure a minimum rate of pixel-space reasoning and to balance exploration with computational efficiency [10][11]. Group 3: Performance Validation - The Pixel-Reasoner, based on the Qwen2.5-VL-7B model, achieved impressive results across four visual reasoning benchmarks, outperforming models like GPT-4o and Gemini-2.5-Pro [13][19]. - Specifically, it achieved an accuracy of 84.3% on the V* Bench, significantly higher than its competitors [13]. - The model demonstrated a 73.8% accuracy on TallyQA-Complex, showcasing its ability to differentiate between similar objects in images [19][20]. Group 4: Future Implications - The research indicates that pixel-space reasoning is not a replacement for text reasoning but rather a complementary pathway for VLMs, enabling a dual-track understanding of the world [21]. - As multi-modal reasoning capabilities evolve, the industry is moving towards a future where machines can "see more clearly and think more deeply" [21].