Workflow
AI推理能力
icon
Search documents
反转,AI推理能力遭苹果质疑后,Claude合著论文反击:不是不会推理,是输给Token
3 6 Ke· 2025-06-17 07:52
近日,Apple 机器学习研究团队发布了一篇名为《思考的幻觉(The Illusion of Thinking)》的论文。 苹果的要求也很苛刻:不仅要给出正确答案,还得用"思维链"的方式,把解题的每一步都写出来。 结果呢? 正如苹果所料,随着谜题越来越难,所有顶尖推理模型的准确率都直线下滑。在最复杂的任务面前,性能直接崩盘,准确率归零。 这篇 53 页的技术报告并非普通评测,而是一记质疑当下主流 LLM 推理能力的重锤。 研究者们指出,OpenAI 的"o"系列、Google 的 Gemini 2.5、以及 DeepSeek-R 等所谓"推理型大模型",本质上并没有从训练数据中学习到可泛化的第一性 原理。 他们用了四个经典问题来证明这一观点:汉诺塔(Tower of Hanoi)、积木世界(Blocks World)、过河问题(River Crossing)和跳棋(Checkers Jumping)。 图注:四类经典问题的示意图。 这些任务的特点是,可以通过增加步骤和限制条件,让难度指数级飙升,极其考验模型的长链条逻辑规划能力。 这篇论文在X(推特)上被疯狂转发,很多人上来就直接宣判:"苹果已经证明了,像Cl ...