高阶推理

Search documents
真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击
机器之心· 2025-07-09 09:52
当前,驱动科学研究的人工智能(AI for Science,AI4S)在单点取得了可观的进展,实现了工具层面的革新,然而要成为 「 革命的工具 」 ,需要采用 「 通专融 合 AGI 」 方式。大模型的突破性能力逐步改变科学研究的模式,而大模型在科学领域的深度应用亟需科学的评测支撑。 现有科学评测面临着两大痛点:现有测试多聚焦知识记忆,而真实科研需要从原始科学数据感知到复杂推理的全链条能力;天文、地球、生命和材料等领域存在 大量未开发的多模态数据分析需求。 为此,上海人工智能实验室 AI4S 团队推出了 Scientists' First Exam(以下简称 SFE)—— 系统评估多模态大模型(MLLMs)多学科、高难度的科学专业领域认 知能力的评测基准 。 SFE 首创 「 信号感知 - 属性理解 - 对比推理 」 三级评估体系,涵盖 五大科学领域的 66 项高价值任务 ,采用原始科学数据和中英双语问答形式。测试表明,尽管 主流模型在传统基准表现优异,但在 SFE 高阶科学任务上仍面临显著挑战( SOTA 大模型综合得分仅为 30 左右 )。SFE 通过系统全面地评测大模型在科学任务 上的能力短板,为科学 ...
华为多路径推理破解大模型数学瓶颈,准确率超97%|ICML 2025
量子位· 2025-07-03 09:00
FOT团队 投稿 量子位 | 公众号 QbitAI 大模型越来越大,通用能力越来越强,但一遇到数学、科学、 逻辑这类复杂问题,还是常"翻车"。 为破解这一痛点, 华为诺亚方舟实验室 提出全新高阶推理框架 —— 思维森林(Forest-of-Thought,FoT) 。 该方法借鉴人类"多角度思考、反复验证"的认知方式, 打破传统LLM的线性推理范式,通过构建多棵并行推理树, 引入动态自我修正机制与 多视角共识决策策略。 论文将在7月份召开的ICML 2025大会上发表和开源。 在此基础上,FoT在多个数学推理任务中表现突出, 进一步展现了FoT相较于ToT(Tree-of- Thought)更优的推理能力。 具体而言,在GSM8K数据集上,结合FoT的QwQ- 32B模型准确率高达97.33%,超过了GPT- 4o和rStar-Math等先进模型;在更具挑战性的 AIME 2024测试中,更是将准确率提升至53.33%, 较对比方法rStar-Math高出6.66%。 | Table 5. The following summarizes the performance of FoT and | | | | ...