思维链

Search documents
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈
量子位· 2025-06-16 10:30
MINT-CoT团队 投稿 量子位 | 公众号 QbitAI 思维链(Chain of Thought, CoT)推理方法已被证明能够显著提升大语言模型(LLMs)在复杂任务中的表现。而在多模态大语言模型 (MLLMs)中,CoT 同样展现出了巨大潜力。 3. 过度依赖外部功能 像 MVoT 或 Visual SKETCHPAD 等方法,需要借助外部工具或能力来生成或修改图像,训练和推理过程成本高、不通用。 然而,当视觉信息与数学推理结合时,传统的 CoT 方法就显得力不从心了——视觉输入中的数学细节往往被忽略,导致推理结果不准确。 最近,香港中文大学 MMLab 团队正式发布了全新的视觉推理方案——MINT-CoT,专为解决"多模态数学推理"中的难题而设计。 为什么数学视觉推理这么难? 尽管已有一些研究尝试把视觉信息引入 CoT 推理,例如 Visual-CoT、Visual SKETCHPAD、VPT、ICoT 等方法,但在数学场景下依然存 在 三大瓶颈: 1. 粗粒度图像区域选择 大部分方法依赖边界框(Bounding Box)来截取图像区域。但数学图像里的元素(比如坐标轴、几何图形、标注文字等)高度关 ...
ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
机器之心· 2025-06-16 04:04
本文共同一作是张翔和曹峻泰。张翔是英属哥伦比亚大学研究生,主要研究兴趣集中在大模型推理和 AI for Science;曹峻泰是英属哥伦比亚大学研究生, 主要研究兴趣集中在大模型推理和可解释性研究;本文通讯作者是来自纽约大学石溪分校的助理教授尤晨羽,以及来自 Meta Gen AI 的研究员丁渡鉴。 近年来,大型语言模型(LLM)在自然语言处理领域取得了革命性进展。然而,其底层的 Transformer 架构在处理复杂推理任务时仍有不足。尽管「思维 链」(CoT)提示技术提供了一条实用路径,但多数方法依赖通用指令,导致提示工程高度依赖反复试验,缺乏理论指导。 图 1 :Prompt 模板深刻影响着答案空间的配置和导航方式。左侧展示了不同的 Prompt(如 Auto-Prompt、RL-Prompt)如何在「Prompt 空间」中进行搜索,而右侧则展示了在特定 Prompt 指导下,如何在「答案空间」中进行搜索以得到解决方案(如 Tree-of-Thought、Graph-of-Thought)。 来自英属哥伦比亚大学、纽约大学石溪分校和浙江大学的研究团队深入剖析了 Prompt 如何在 LLM 的 CoT ...
奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降
量子位· 2025-06-09 03:52
奥特曼使用大模型的方法,竟然是错的? 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 来自沃顿商学院等机构的最新研究发现,备受奥特曼喜爱的 "直接回答"提示,竟然会显著降低模型准确率 。 不过另一方面,这项研究也发现, 在提示词中加入思维链(CoT)命令同样不好用 —— CoT提示对于推理模型非但没有效果提升,反而会增加时间和计算成本。 而一些前沿的非推理模型,CoT提示可以带来效果提升,但答案的不稳定性也随之增加了。 研究团队使用GPQA Diamond数据集,针对现在主流的推理和非推理模型,分别在启用和不启用CoT的情况下进行了测试。 结果就是对于推理模型,CoT的作用十分有限,比如对于o3-mini,CoT带来的准确率提升只有4.1%,但时间却增加了80%。 非推理模型的结果则要复杂一些,但总之要不要用CoT,也需要对收益和投入进行仔细权衡。 所以CoT到底该不该用呢? 实际上,这项研究针对的是用户提示词中的CoT命令,并不包括系统提示词设定,更 不是CoT本身 。 CoT提示词作用有限,甚至还有反效果 结果, 对于非推理模型,CoT提升相比于直接回答,所有模型的平均评分和"51%正确"指标都有 ...
专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻
海外独角兽· 2025-06-08 04:51
本期内容是拾象 CEO 李广密对大模型公司阶跃星辰首席科学家张祥雨的访谈。 张祥雨专注于多模态领域,他提出了 DreamLLM 多模态大模型框架,这是业内最早的图文生成理解 一体化的多模态大模型架构之一,基于这个框架,阶跃星辰发布了中国首个千亿参数原生多模态大 模型 Step-1V。此外,他的学术影响力相当突出,论文总引用量已经超过了 37 万次。 一直以来,业界都相当期待一个理解、生成一体化的多模态,但直到今天这个模型还没出现,如何 才能达到多模态领域的 GPT-4 时刻?这一期对谈中,祥雨结合自己在多模态领域的研究和实践历 程,从纯粹的技术视角下分享了自己对多模态领域关键问题的全新思考,在他看来,虽然语言模型 领域的进步极快,但多模态生成和理解的难度被低估了: • 接下来 2-3 年,多模态领域会有两个 GPT-4 时刻:多模态推理和自主学习; • o1 范式的技术本质在于激发出 Meta CoT 思维链:允许模型在关键节点反悔、重试、选择不同分 支,使推理过程从单线变为图状结构。 目录 01 研究主线: 重新回归大模型 • 多模态生成理解一体化难以实现的原因在于,语言对视觉的控制能力弱,图文对齐不精确, ...
8个数据集全面胜出!思维链推理刷新图学习表现上限
量子位· 2025-06-08 03:40
GCoT团队 投稿 量子位 | 公众号 QbitAI 图神经网络还能更聪明?思维链提示学习来了! 由于图数据拥有复杂的非线性结构和缺少文本信息,语言模型中的思维链(Chain-of-Thought,CoT)提示 学习方法难以简单直接地应用于图数据。 基于此,来自新加坡管理大学和中国科学技术大学的研究者们提出了 GCo T ——首个应用于无文本图数据 的类思维链提示学习框架。 实验结果表明,GCoT在八个图数据集上的少样本节点分类与图分类任务全面超越现有SOTA方法,尤其在 1-5样本的极少样本设置下表现最为显著。 GCoT方法解析 GCoT的核心思想是将下游的推断过程拆分为多个推断步骤。具体包含: 研究 者们在八个公开 数据集上进行了全面实验以评估和分析GCoT。 整体框架 研究者们将思维链提示学习分为三个部分: 2. 思维构建 为有效利用多层结构信息,研究人员将每一层的嵌入表示做加权求和得到融合后的"思维" 。 3. 基于思维的提示学习Thought conditioned prompt learning 研究人员设计的"思维" 捕获了图中节点的结构知识并用于指导下一步推断。由于每个节点可能具有不同 的特质 ...
海天瑞声20250605
2025-06-06 02:37
Q&A 海天瑞声在 2024 年度的财务表现如何? 海天瑞声 20250605 摘要 海天瑞声 2024 年扭亏为盈,归母净利润达 1,134 万元,经营性现金流 净额 2,873 万元,主要受益于多模态数据订单增加、高毛利产品占比提 升及定制服务毛利率改善。公司积极拓展海外市场,尤其在智能驾驶领 域,紧跟车企出海趋势,布局海外数据采集业务,优化智能驾驶数据处 理算法和平台功能。 公司持续投入研发,在智能驾驶数据处理平台、智能化数据运营平台和 Data x 数据中台建设上取得重要进展,并不断增厚算法储备,优化推理 框架,启动语音大模型自研项目,提升点云标注效率,支撑国家人工智 能基础设施建设。 海天瑞声确立科技引领战略,通过持续研发投入突破技术瓶颈,推动训 练数据生产智能化、规模化,重点布局多模态融合、思维链推理等领域, 构建差异化竞争壁垒,如针对自动驾驶点云标注场景提出动静态分类标 注方案。 在智能驾驶标注领域,公司推出多帧点云叠加及物体跟踪算法,提升标 注效率,并逐步向 4D 标注转化,自研 SLAM 算法优化泊车场景 4D 点 云标注,开发智能分段加载解决方案,突破高难度边缘场景标注瓶颈。 2024 年 ...
思维链也会「跳帧」?浙大团队提出CoT-Bridge,显著提升数学推理性能
机器之心· 2025-06-03 06:26
在大语言模型(LLM)飞速发展的今天,Chain-of-Thought(CoT)技术逐渐成为提升复杂推理能力的关键范式,尤 其是在数学、逻辑等结构化任务中表现亮眼。 本文的共同第一作者是徐皓雷和颜聿辰。徐皓雷是浙江大学的一年级硕士生,主要研究兴趣集中在大模型推理和可解释 性研究;颜聿辰是浙江大学博士三年级研究生,主要研究兴趣集中在大模型推理和智能体。本文通讯作者是浙江大学鲁 伟明教授和沈永亮研究员。 但你是否注意到:即使是精心构建的 CoT 数据,也可能存在 "跳跃式" 推理,缺失关键中间步骤。对人类专家来说这 些步骤或许 "理所当然",但对模型而言,却可能是无法逾越的鸿沟。 为了解决这一问题,浙江大学联合微软亚洲研究院、香港中文大学提出了 Thought Leap Bridge 任务,并开发了思维 链修复方法:CoT-Bridge。实验显示,该方法显著提升了多个数学与逻辑任务中的推理准确率,并能作为 "即插即用" 的模块嵌入到知识蒸馏、强化学习等流程中。 CoT 不等于 Coherent-of-Thought 思维跳跃是如何破坏推理链的? CoT 的设计初衷是让大模型像人一样 "按步骤思考",然而研究团队发 ...
GPT-Kline:MCoT与技术分析
HTSC· 2025-05-31 10:25
Investment Rating - The report does not explicitly state an investment rating for the industry or the specific technology discussed. Core Insights - The research explores the application of Multimodal Chain of Thought (MCoT) in investment research, particularly in technical analysis using K-line charts, leading to the development of an automated platform called GPT-Kline [1][4][13]. - MCoT enhances the reasoning capabilities of large models by combining multimodal understanding with logical reasoning, allowing for more sophisticated analysis of complex tasks [2][21]. - The O3 model, launched by OpenAI, demonstrates impressive image reasoning capabilities, marking a significant step towards achieving general artificial intelligence (AGI) [2][37]. Summary by Sections Multimodal Reasoning - Multimodal collaboration is essential for large models to progress towards AGI, requiring them to be proficient in various modalities beyond just language [17]. - MCoT represents a significant advancement, enabling models to think based on images rather than merely perceiving them [21][31]. Application in Investment Research - The report highlights the potential of MCoT in technical analysis, particularly with K-line charts, which encapsulate vital trading information and patterns suitable for analysis [3][42]. - The O3 model's application in technical analysis shows its ability to process K-line images, perform necessary pre-processing, and generate analytical reports [3][43]. Development of GPT-Kline - GPT-Kline integrates MCoT with the capabilities of large models to create a specialized tool for K-line technical analysis, automating the entire analysis process from drawing to reporting [4][65]. - The platform features a user-friendly web interface designed for intuitive interaction, allowing users to engage with the analysis process effectively [4][83]. Model Comparison and Performance - The report compares various large models, including OpenAI's GPT-4o and Gemini-2.5 series, assessing their capabilities in K-line analysis and identifying Gemini-2.5 Flash as a strong performer [66][96]. - The analysis results indicate that while OpenAI's models tend to be conservative in their outputs, the Gemini models provide more comprehensive and accurate annotations [95][96].
腾讯混元TurboS技术报告首次全公开:560B参数混合Mamba架构,自适应长短链融合
AI前线· 2025-05-22 19:57
随着大型语言模型(LLM)的飞速发展,模型能力与效率的平衡成为了前沿研究的关键议题。 腾讯混 元团队最新推出的混元TurboS模型,是一款新颖的 超大型 Hybrid Transformer-Mamba架构MoE模型 。该模型通过Mamba架构在长序列处理上的卓越效率与Transformer架构在上下文理解上的固有优势的 有机协同,实现了性能与效率的精妙平衡。 混元TurboS引入了创新的自适应长短思维链机制,能够根据问题复杂度动态切换快速响应模式与深度 思考模式,从而优化计算资源分配。更重要的是,其模型激活参数达到了56B(总参数560B),是业 界首个大规模部署的Transformer-Mamba专家混合(MoE)模型。 架构创新以及参数量的保证,让模型效果进步明显,国际最权威的大模型评测榜单LMSYS Chatbot Arena最新排名显示: 混元Turbo S 取得了整体1356的高分,在所有239个参赛模型中位列全球前7名。 | Rank* | Rank | Model | Arena 4 | વેરૂર A | Votes | A Organizatio License | 4 | | --- | ...
5分钟读懂Lilian Weng万字长文:大模型是怎么思考的?
Hu Xiu· 2025-05-22 09:54
最近有三篇很火的bolg,第一篇是OpenAI researcher 姚顺雨的"欢迎来到下半场",第二篇是David Silver 和Richard S. Sutton的"Welcome to the Era of Experience",这是第三篇,Lilian Weng的Why We Think。 Lilian Weng的最新blog,还找了John Schulman润色。 道理其实很朴素,里边的内容大家都聊过,我们绝大部分也单独写过,但是这篇blog系统性地梳理了AI 最新范式:test-time compute。 LLM大模型是怎么思考的? ①从心理学角度:理论来源于丹尼尔·卡尼曼的《思考,快与慢》。 与人类思考方式有相似之处。 人脑有"系统1"(直觉、快速)和"系统2"(分析、缓慢)。 在推理模型出现之前,大模型的答案"脱口而出",这就是系统1。给AI多点时间思考,就像是激活了它 们的"系统2"。 ②从计算资源角度: ③从数学角度: 可以把整个"问题 (x) - 思考过程 (z) - 答案 (y)"看作一个概率模型。 思考过程z就是那个隐变量(hidden variable)。把各种可能的思考路径都 ...