逻辑推理

Search documents
多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品
量子位· 2025-06-06 13:45
MME团队 投稿 量子位 | 公众号 QbitAI 逻辑推理是人类智能的核心能力,也是多模态大语言模型 (MLLMs) 的关键能力。随着DeepSeek-R1等具备强大推理能力的LLM的出现,研 究人员开始探索如何将推理能力引入多模态大模型(MLLMs)。 然而,现有的benchmark大多缺乏对逻辑推理类型的明确分类,以及对逻辑推理的理解不够清晰,常将感知能力或知识广度与推理能力混 淆。 在此背景下,复旦大学及香港中文大学MMLab联合上海人工智能实验室等多家单位,提出了MME-Reasoning,旨在全面的评估多模态大模 型的推理能力。 结果显示,最优模型得分仅60%左右。 MME-Reasoning:全面评估多模态推理能力 根据Charles Sanders Peirce的分类标准,推理分为三类:演绎推理 (Deductive)、归纳推理 (Inductive) 以及溯因推理 (Abductive)。 MME-Reasoning以此分类作为标准来全面的测评多模态大模型的推理能力。 演绎推理 (Deductive reasoning) 使用规则和前提来推导出结论。 归纳推理 (Inductive reas ...
北大、清华、UvA、CMU等联合发布:大模型逻辑推理能力最新综述
机器之心· 2025-05-07 07:37
当前大模型研究正逐步从依赖扩展定律(Scaling Law)的预训练,转向聚焦推理能力的后训练。鉴于符号逻辑推理的有效性与普遍性, 提升大模型的逻辑推理能 力 成为解决幻觉问题的关键途径。 为推进大语言模型的逻辑推理能力研究,来自 北大、清华、阿姆斯特丹大学(UvA)、卡内基梅隆大学(CMU)、MBZUAI 等 5 所高校 的研究人员全面调研了 该领域最前沿的研究方法和评测基准,联合发布了调研综述《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》,针对两个关键科学问题 —— 逻辑问答和逻辑一致性 ,对现有方法进行归纳整理并探讨了未来研究方向。 该综述论文已被 IJCAI 2025 Survey Track 接收,并且作者团队将于 IJCAI 2025 现场围绕同一主题进行 Tutorial 演讲,全面探讨该研究领域的挑战、方法与机遇。 论文标题:Empowering LLMs with Logical Reasoning: A Comprehensive Survey 论文链接:https://arxiv.org/abs/2502. ...
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 04:39
选自 Ahead of AI 作者:Sebastian Raschka 机器之心编译 推理模型发展正盛,著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《 Reasoning From Scratch 》。在此之前,他已经出版了多本 AI 领域的著名书籍,包括《Build a Large Language Model (From Scratch)》、《Machine Learning Q and AI》、《Machine Learning with PyTorch and Scikit-Learn》。 近日,他在自己的博客上放出了这本书的第一章,为 LLM 领域的推理进行了入门级的介绍,同时还概述了推断时间扩展和强化学习等技术方法。 机器之心编译了这本书的第一章,以飨读者。 原文地址:https://magazine.sebastianraschka.com/p/first-look-at-reasoning-from-scratch (注:为了行文清晰,本文会将 inference 译为「推断」,将 reasoning 译为「推理」;其中 inference ...