推理

Search documents
反转,AI推理能力遭苹果质疑后,Claude合著论文反击:不是不会推理,是输给Token
3 6 Ke· 2025-06-17 07:52
近日,Apple 机器学习研究团队发布了一篇名为《思考的幻觉(The Illusion of Thinking)》的论文。 苹果的要求也很苛刻:不仅要给出正确答案,还得用"思维链"的方式,把解题的每一步都写出来。 结果呢? 正如苹果所料,随着谜题越来越难,所有顶尖推理模型的准确率都直线下滑。在最复杂的任务面前,性能直接崩盘,准确率归零。 这篇 53 页的技术报告并非普通评测,而是一记质疑当下主流 LLM 推理能力的重锤。 研究者们指出,OpenAI 的"o"系列、Google 的 Gemini 2.5、以及 DeepSeek-R 等所谓"推理型大模型",本质上并没有从训练数据中学习到可泛化的第一性 原理。 他们用了四个经典问题来证明这一观点:汉诺塔(Tower of Hanoi)、积木世界(Blocks World)、过河问题(River Crossing)和跳棋(Checkers Jumping)。 图注:四类经典问题的示意图。 这些任务的特点是,可以通过增加步骤和限制条件,让难度指数级飙升,极其考验模型的长链条逻辑规划能力。 这篇论文在X(推特)上被疯狂转发,很多人上来就直接宣判:"苹果已经证明了,像Cl ...
迈向人工智能的认识论:对人工智能安全和部署的影响以及十大典型问题
3 6 Ke· 2025-06-17 03:56
忠实度作为一项要求。对于高风险人工智能,我们可以考虑在认证过程中 强制要求一定程度的推理透 明度 。例如,监管机构(例如医疗人工智能的 FDA 或航空人工智能的 FAA)可以要求人工智能系统在 测试条件下证明,它能够为 X% 的案例生成正确且忠实的思路链。或者,它通过了可解释性检查,没 有明显隐藏的恶意策略。《 欧盟人工智能法案》 和其他新兴法规强调,高风险系统的透明度和可解释 性是一项法律要求。这并不意味着每个决策都必须向最终用户提供完整的解释,但 开发人员 应该有系 统如何做出决策的文档,并在需要时提供解释 工具。例如,医疗人工智能可以附带一张"模型卡",概 述已知的决策因素,并包含审计的示例解释。 人机交互和故障保护。在我们对人工智能推理能力充满信心之前,谨慎的做法是 让人类参与 最终决 策。人工智能可以起草分析报告,但人类专家应该予以批准,尤其是在不可逆或敏感结果(例如诊断患 者或刑事司法中的量刑)方面。人工智能的思路可以呈现给人类进行更快的验证——例如,"由于实验 室结果 A 和症状 B,人工智能建议采用 X 疗法"——这样人类就无需猜测其背后的原因。从某种意义上 说,人工智能变成了一个负责分析案例 ...
推理算力仍具需求爆发潜力,数字经济ETF(560800)近1月新增份额位居可比基金首位
Xin Lang Cai Jing· 2025-06-17 03:32
Group 1 - The core viewpoint of the news highlights the performance of the digital economy theme index and its constituent stocks, with a slight decline observed in the index and mixed performance among individual stocks [1] - The digital economy ETF has seen significant growth in share volume, increasing by 18 million shares over the past month, ranking it among the top half of comparable funds [2] - The top ten weighted stocks in the digital economy theme index account for 50.98% of the total index weight, indicating a concentration in key players within the digital economy sector [2][4] Group 2 - The recent FORCE conference by Volcano Engine showcased advancements in AI, including the release of several new models, reflecting trends in the AI industry such as improved cost-performance of domestic large models and potential for accelerated deployment of agents [1] - The digital economy ETF closely tracks the performance of the digital economy theme index, which includes companies involved in digital infrastructure and high levels of digitalization [2] - The performance of individual stocks within the index varied, with notable gainers like ChipLink Integration and Jiangbolong, while stocks like Cambricon and Runze Technology experienced significant declines [1][4]
MiniMax重磅开源M1模型:百万上下文超DeepSeek R1,实现性能与效率双杀
AI科技大本营· 2025-06-17 02:32
Core Insights - MiniMax has officially open-sourced its latest large language model, MiniMax-M1, marking a significant development in the AI landscape [2][4] - MiniMax-M1 is recognized as the world's first open-weight large-scale hybrid attention inference model, showcasing substantial breakthroughs in performance and inference efficiency [4][6] Model Specifications - MiniMax-M1 features a parameter scale of 456 billion, with each token activating approximately 45.9 billion parameters, and supports a maximum context length of 1 million tokens, which is 8 times longer than that of DeepSeek R1 [7][12] - The model's computational load (FLOPs) for generating 100,000 tokens is only 25% of that required by DeepSeek R1, indicating a significant advantage in long text processing tasks [7][12] Training and Efficiency - The training of MiniMax-M1 utilized a large-scale reinforcement learning (RL) strategy, optimizing performance across various tasks, including mathematical reasoning and software engineering [9][11] - The complete RL training of MiniMax-M1 was accomplished in three weeks using 512 H800 GPUs, with a cost of approximately $534,700, demonstrating high efficiency and cost-effectiveness [11] Performance Comparison - MiniMax-M1 is available in two versions, with maximum generation lengths of 40K and 80K tokens, and has shown superior performance in complex software engineering, tool usage, and long-context tasks compared to leading open-weight models like DeepSeek-R1 and Qwen3-235B [12][19] - In benchmark tests, MiniMax-M1 outperformed other models in various categories, including long-context understanding and tool usage, establishing itself as a strong contender in the AI model landscape [19]
AI成为数学家得力助手还要多久
Ke Ji Ri Bao· 2025-06-17 01:18
为了打破这一局面,美国国防高级研究计划局今年4月启动了"指数性数学"计划,旨在开发一种能 极大提升数学研究效率的人工智能(AI)"合著者"系统。 几十年来,数学家借助计算机进行辅助计算或验证命题,如今的AI或许能更上层楼,挑战那些人 类长年未解的难题。不过,从能解高中题的AI,到能协助攻克前沿数学难关的AI,中间仍隔着一道鸿 沟。 解决重大难题仍力不从心 大型语言模型(LLM)并不擅长数学。它们常常出现"幻觉",甚至可能被误导相信2+2=5。但新一 代大型推理模型,如OpenAI的o3、Anthropic的Claude 4 Thinking等,展现出的进步令数学家眼前一亮。 今年,这些模型在美国数学邀请赛中的表现接近优秀高中生水平。不同于过去"一锤定音"式的输 出,这些模型开始尝试模拟数学家逐步推理的思考过程。 同时,一些将LLM与某种事实核查系统相结合的新型混合模型也取得了突破。例如,谷歌"深度思 维"的AlphaProof系统将语言模型与棋类AI——AlphaZero结合,成为首个取得与国际数学奥林匹克竞赛 银牌得主成绩相当的系统。今年5月,谷歌的AlphaEvolve模型更进一步,在多个长期未解的数学与 ...
高通收购Alphawave:杀回数据中心市场胜算几何?
2 1 Shi Ji Jing Ji Bao Dao· 2025-06-16 12:36
21世纪经济报道记者骆轶琪 广州报道 曾在数据中心市场折戟的高通,再度杀回来了。 近日,高通宣布收购半导体IP行业全球第四的公司Alphawave,旨在加码面向数据中心市场的竞争力, 后者的优势在于拥有高端接口IP,这也是进入AI芯片市场的重要砝码。 在2017年,高通曾尝试推出基于Arm架构的数据中心CPU产品,但遭遇折戟。近些年间,其并未放弃 对该市场的探索,且在尝试借力外部资源。 2021年,高通宣布收购Nuvia,就被视为在为数据中心市场蓄力。前不久,高通宣布要重返数据中心领 域,并与英伟达、Humain等公司展开合作。此次收购显然也是在完善能力闭环。 如果说此前的尝试,是受Arm生态发展早期的能力所限,如今高通再度回归,其数据中心之路有什么新 变数? 高通面向数据中心领域再度加码一子。 近日,高通宣布已与Alphawave IP Group plc (伦交所:AWE)达成协议,高通旗下间接全资子公司Aqua Acquisition Sub LLC计划收购后者全部已发行和将要发行的普通股本,交易隐含企业价值约24亿美元。 此次收购预计将于2026年第一季度完成。 高通方面称,收购Alphawave旨在 ...
云天励飞-U:推理需求攀升 卡位国产化AI算力机会
Zheng Quan Shi Bao Wang· 2025-06-16 11:28
陈宁表示,DeepEdge10芯片是云天励飞自主研发的AI推理高性能芯片,采用国产14nmChiplet工艺,内 含国产RISC-V核。基于自主研发的"算力积木"AI芯片架构,云天励飞将标准计算单元像搭积木一样, 封装成不同算力的芯片,覆盖8T—256T算力应用,可实现7B、14B、130B等不同参数量大模型的高效 推理。DeepEdge10系列芯片已完成DeepSeekR1系列模型、FlashMLA适配和国产鸿蒙操作系统的适配, 可支持包括Transformer模型、BEV模型、CV大模型、LLM大模型等各类不同架构的主流模型,并在机 器人、边缘网关、服务器等领域实现商业化应用,为深空探测实验室的自主可控星载计算提供支撑。 另外依托算法芯片化核心技术平台,云天励飞还打造了更适配于大模型运算要求的神经网络处理器 NNP400T。2025年,公司将继续加强神经网络处理器技术研发,通过面向大模型的专用指令集、专用 算子、专用的存算一体架构、保证精度的低比特混合量化,实现算法与芯片的联合深度优化,满足大模 型的推理需求;开发包括芯片工具链、软件开发包等组成的配套全栈软件开发平台,为公司神经网络处 理器生态化发展提供 ...
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈
量子位· 2025-06-16 10:30
MINT-CoT团队 投稿 量子位 | 公众号 QbitAI 思维链(Chain of Thought, CoT)推理方法已被证明能够显著提升大语言模型(LLMs)在复杂任务中的表现。而在多模态大语言模型 (MLLMs)中,CoT 同样展现出了巨大潜力。 3. 过度依赖外部功能 像 MVoT 或 Visual SKETCHPAD 等方法,需要借助外部工具或能力来生成或修改图像,训练和推理过程成本高、不通用。 然而,当视觉信息与数学推理结合时,传统的 CoT 方法就显得力不从心了——视觉输入中的数学细节往往被忽略,导致推理结果不准确。 最近,香港中文大学 MMLab 团队正式发布了全新的视觉推理方案——MINT-CoT,专为解决"多模态数学推理"中的难题而设计。 为什么数学视觉推理这么难? 尽管已有一些研究尝试把视觉信息引入 CoT 推理,例如 Visual-CoT、Visual SKETCHPAD、VPT、ICoT 等方法,但在数学场景下依然存 在 三大瓶颈: 1. 粗粒度图像区域选择 大部分方法依赖边界框(Bounding Box)来截取图像区域。但数学图像里的元素(比如坐标轴、几何图形、标注文字等)高度关 ...
推理、训练、数据全链条的工程挑战,谁在构建中国 AI 的底层能力?|AICon 北京
AI前线· 2025-06-16 07:37
在大模型快速演进的浪潮中,模型本身不再是唯一的挑战, 推理慢、训练不稳、数据难迁 等"系统性问题"正成为决定技术能否规模化落地的关键变量。 特别是对国产 AI 而言,算力适配、系统容错、数据合规等问题,更是绕不开的现实考验。 6 月 27~28 日, AICon 全球人工智能开发与应用大会·北京站 将带来聚焦系统层的七大关键议题,涵盖 国产芯片推理适配、开源部署实践、大规模训练容 错机制、AI 数据底座的云原生演进 等多个方向。既有深耕国产平台的实践派,也有活跃在开源社区的一线开发者,共同勾勒出国产 AI 基础设施建设的技术 全貌。 了解大会日程查看: https://aicon.infoq.cn/2025/beijing/schedule 以下是这七个演讲议题前瞻,一起提前了解他们将带来的分享内容: 昇腾 DeepSeek 大模型推理架构 by 王建辉 华为昇腾 / 架构师 在大模型加速部署进入深水区的今天,如何在国产算力平台上高效运行大模型,已成为影响应用落地的重要一环。本次分享将介绍昇腾 DeepSeek 大模 型推理架构,性能优化方案及关键优化措施,以及优化建议。 ✨ 关键词: 昇腾芯片推理优化 / ...
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
机器之心· 2025-06-16 05:16
机器之心报道 机器之心编辑部 上上周的 2025 高考已经落下了帷幕!在人工智能领域,各家大模型向数学卷发起了挑战。 在 机器之心的测试 中,七个大模型在「2025 年数学新课标 I 卷」中的成绩是这样的:Gemini 2.5 Pro 考了 145 分,位列第一;Doubao 和 DeepSeek R1 以 144 分紧 随其后,并列第二;o3 和 Qwen3 也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的总成绩排到了最后两名。 其实,向今年数学卷发起挑战的大模型还有其他家,比如 Xiaomi MiMo-VL,一个只有 7B 参数的小模型 。 该模型同样挑战了 2025 年数学新课标 I 卷,结果显示, 总分 139 分,与 Qwen3-235B 分数相同,并只比 OpenAI o3 低一分 。 并且,相较于同样 7B 参数的多模态大模型 Qwen2.5-VL-7B, MiMo-VL 整整高出了 56 分 。 MiMo-VL-7B 和 Qwen2.5-VL-7B 是通过上传题目截图的形式针对多模态大模型进行评测,其余均是输入文本 lat ...