思维链

Search documents
翁荔最新万字长文:Why We Think
量子位· 2025-05-18 05:20
网友们看罢,纷纷打出了 "精彩" 二字: 感觉就像打开了人工智能理解的一个全新维度。 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 《Why We Think》。 这就是北大校友、前OpenAI华人VP 翁荔 所发布的最新 万字长文 —— 围绕"测试时计算"(Test-time Compute)和"思维链"(Chain-of-Thought,CoT),讨论了如何通过这些技术显著提升模型性能。 翁荔表示: 让模型在输出答案前多思考一会儿(比如通过智能解码、思维链推理、潜在思考等方法),能显著提升它的智能水平,突破当前的能 力瓶颈。 那么接下来,我们就来深入了解一下这篇文章。 动机 让模型思考更长的时间可以通过几种不同的方式来激发。 心理学类比 核心思想与人类思考方式深度关联。 人类无法立即回答"12345×56789等于多少?",而是需要时间分析——这正是Daniel Kahneman在《思考,快与慢》(2013)中提出的双 系统理论: 因为系统1思维是快速和简单的,它经常以准确性和逻辑性为代价,成为主要的决策驱动因素。它自然依赖于我们大脑的思维捷径(即启发 式),并可能导致错误和偏见。 通过有意识地放 ...
刚刚!北大校友Lilian Weng最新博客来了:Why We Think
机器之心· 2025-05-18 04:25
选自 Lil'Log 作者: Lilian Weng 机器之心编译 学习大模型的优质博客又更新了! 最近,北大校友、前 OpenAI 应用 AI 研究负责人 Lilian Weng 更新了一篇长长长长长长长博客《Why We Think》。 文章回顾了近期在如何有效利用测试时计算(即「思考时间」)及其作用机制方面的研究进展,旨在让模型「思考得更久」这一目标可以从多个角度得到合理动 机支持。 通过观察 GPT、Claude、Gemini 等模型的迭代,可以清晰地看到,它们在复杂逻辑推理、长文本理解、数学问题求解以及代码生成与调试等高级认知任务上的性 能边界被不断拓展。 这种性能的提升得益于思维链(CoT)和测试时计算等策略的优化,但也带来了新的研究挑战。 为了方便国内读者更好地学习这篇内容,机器之心对此文章进行了编译。感兴趣的读者也可查阅原英文内容。 英文博客链接: https://lilianweng.github.io/posts/2025-05-01-thinking/ 类比心理学 该核心思想与人类的思维方式密切相关。人类通常无法立即给出「12345 × 56789」的答案,对于复杂问题,进行一段时间的思 ...
国泰海通:具身智能落地打开人形机器人成长空间
智通财经网· 2025-05-14 06:43
多模态、强化学习提升运控性能,感知传感持续革新,通信、算力升级增强实时控制 多模态大模型是提高人机交互效率、增强情景理解力的关键,目前英伟达GR00T、特斯拉Grok3大模型 积极整合多模态感知,加速提升机器人交互及决策精度。 思维链赋能大模型高效推理,GPT-4.5已在一定程度上通过图灵测试,目前优必选基于DeepSeek-R1研发 具身推理大模型,预期可实现复杂环境中的准确高效反应和决策。 运动控制算法是协调全身动作执行核心,强化学习可基于奖励函数实现步态、奔跑等运动高效学习,并 增强泛化能力,有望成为运动算法主要范式。 智通财经APP获悉,国泰海通发布研报称,人形机器人高速发展,具身智能是驱动商业化落地的核心因 素。机器人智能水平以及实时控制性能提升将驱动感知性能、算力、通信效率等需求增长,端侧传感、 驱控及通信芯片将充分受益。具身智能落地打开人形机器人成长空间,未来应用前景广阔,带动整机厂 商业绩上行。高性能多模态大模型发布,运动算法性能突破将成为催化剂。推荐标的:峰岹科技 (688279.SH),奥比中光-UW(688322.SH),创耀科技(688259.SH),华兴源创(688001.SH)。 ...
“由 AI 生成的代码,从诞生那一刻起就是「遗留代码」!”
AI科技大本营· 2025-05-12 10:25
【编者按】如今生成式 AI 逐渐融入软件开发流程,越来越多 AI 生成的代码出现在实际工程中——但你有没有想过,这些由 AI 写出来的代码,从一开始 就可能被视为"遗留代码"?本文作者从工程经验出发,结合 AI 的生成机制,提出一个颇具启发性的观点: AI 生成的代码缺乏上下文记忆和维护连续性, 因此一 诞生就处于"他人旧作"的状态 。 这 不仅是对当前 AI 编码能力的冷静观察,也为我们理解未来软件开发形态提供了一种新视角。 原文链接: https://text-incubation.com/AI+code+is+legacy+code+from+day+one 翻译 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 在软件开发中,代码的"可改进性"往往取 决于其所处的生命周期阶段。通常可以分为以下几类情况: 总的来看, 代码的演进速度,通常取决于离它的编写时间有多近、维护者是不是原作者。 其实 , 这种状态是合理的:对于一个运行稳定、经过验证的软件系统而言,贸然进行"改进"往往带来额外风险,尤其是当你对系统的整体脉络不甚了 解时,原作者通常才最清楚其潜在逻辑和 开发 背景。 AI 生成的代码 , ...
谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙
机器之心· 2025-05-05 03:40
机器之心报道 编辑:陈萍 该研究对 LLM 常见的失败模式贪婪性、频率偏差和知 - 行差距,进行了深入研究。 大语言模型(LLMs)的成功激发了人们对各种智能体的兴趣。将 LLM 用于智能体的一个关键假设是,LLMs 利用常识和思维链(Chain-of-Thought, CoT)进行推 理,从而智能体可以有效地探索并高效地解决复杂领域的问题。 然而,LLM 智能体存在次优探索和知 - 行差距(knowing-doing gap)的问题,即无法有效地将模型中的知识转化为行动。 本文,来自谷歌 DeepMind 的研究者系统地研究了为什么 LLM 在决策场景中表现次优的原因。特别是,本文深入研究了三种常见的失败模式: 贪婪性、频率偏差 和知 - 行差距 。 在此基础上,本文提出通过强化学习对自动生成的 CoT 推理过程进行微调,以缓解这些不足。实验表明 RL 微调能有效提升 LLMs 的决策能力 —— 既增强了智能 体探索性行为,又缩小了知 - 行差距。 方法介绍 本文系统性地分析了中小规模 LLMs 存在的三种典型缺陷:贪婪性策略、频率偏差以及知行差距。分析表明,由于 LLMs 过早陷入贪婪动作选择策略,导致动 ...
大模型推理上限再突破:「自适应难易度蒸馏」超越R1蒸馏,长CoT语料质量飞升
机器之心· 2025-05-04 04:57
本文作者均来自中兴通讯无线研究院「大模型深潜」团队。团队重点攻关方向包括「推理模型构建:蒸馏与强化学习方法」、「无线通信故障定位与根因分析推 理模型」、「多模态推理模型」和「推理加速技术」。核心成员毕业于中国科学技术大学、中国科学院软件研究所等知名高校与科研院所。 近年来,「思维链(Chain of Thought,CoT)」成为大模型推理的显学,但要让小模型也拥有长链推理能力却非易事。 中兴通讯无线研究院「大模型深潜团队」从 「数据静态经验流」 的角度切入,首创 「LLM 自适应题目难度蒸馏」 方法,一举将高质量 CoT 语料的生产效率与效 果同步拉满。 论文标题:Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading 论文链接:https://arxiv.org/pdf/2504.11919 这促使业界对参数量低于 70 亿的小型模型开展持续研究,尤其聚焦在复杂数学解题和代码生成等长链推理场景。值得注意的是,借助 DeepSeek- ...
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 04:39
选自 Ahead of AI 作者:Sebastian Raschka 机器之心编译 推理模型发展正盛,著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《 Reasoning From Scratch 》。在此之前,他已经出版了多本 AI 领域的著名书籍,包括《Build a Large Language Model (From Scratch)》、《Machine Learning Q and AI》、《Machine Learning with PyTorch and Scikit-Learn》。 近日,他在自己的博客上放出了这本书的第一章,为 LLM 领域的推理进行了入门级的介绍,同时还概述了推断时间扩展和强化学习等技术方法。 机器之心编译了这本书的第一章,以飨读者。 原文地址:https://magazine.sebastianraschka.com/p/first-look-at-reasoning-from-scratch (注:为了行文清晰,本文会将 inference 译为「推断」,将 reasoning 译为「推理」;其中 inference ...
卓驭科技接入通义大模型,联合打造端到端世界模型
阿里云· 2025-04-24 09:13
24日 ,行业一流的智能驾驶供应商及服务商卓驭科技宣布接入通义大模型,并基于阿里云打造端到 端世界模型。此外,其大数据等核心业务系统已接入阿里云。 图|卓驭科技总经理沈劭劼(右)、 阿里云智能集团副总裁、AI汽车行业线总经理李强 卓驭的端到端世界模型区别于传统端到端模型, 引入了强化学习和思维链推理技术 ,不仅将城市领 航辅助的安全性提升一个层级,也支持千人千面驾驶风格、自然语言交互控制驾驶行为、复杂场景慢 推理的智能化体验。 由于卓驭大模型训练采用预训练+后训练结合的方式,以"天"为单位的迭代速度对云端算力提出了较 高的需求。 / END / Related reading 相关阅读 对此, 卓驭基于阿里云PAI平台打造了多种GPU融合的算力资源池 。通过存储资源共享,其数据流 动、数据管理等成本显著降低,相比单GPU集群算力, 卓驭模型训练效率提升50%以上 。 同时,阿里云PAI平台的Serverless能力简化了集群的运维难度, 保障训练全链路可观测,帮助卓驭 将GPU利用率提升至95%以上 。 目前,卓驭的大数据系统、智能制造等核心业务已全面搬上阿里云。其中,在研发领域 卓驭已接入 通义灵码、通义千 ...
英伟达H20不让用?全国产算力深度推理模型讯飞星火X1升级,4张华为910B即可部署满血版
量子位· 2025-04-21 13:23
就在今天, 最新国产深度推理大模型升级更新 ,算力构成全国产化,在模型参数比业界同类模型小一个数量级的情况下,实现了整体效果对 标业界最高水平。 这就是讯飞星火,最新升级的推理模型X1。 一方面是通用任务效果显著提升,在通用任务效果评测中全面对标OpenAI o1和DeepSeek R1,尤其在数学、知识问答等方面表现突出。 (测试集合来源:自建测试集主要来自真实的大模型请求任务数据,来源分布包括讯飞星火APP、星火大模型API、业界主流任务数据等;公开测试集主要以数 学、答题、推理、代码等外部典型测试集为主。) 另一面值得关注的,它还 是 业界唯一一个基于全国产算力训练的推理模型。 在波云诡谲的当下,尤其算力新一波打压H20被禁之后,这样的 模型展现出来的效果和实力显得尤为受到关注。 白交 发自 凹非寺 量子位 | 公众号 QbitAI 英伟达H20也不能用了。中国大模型还能好吗? 能 。 此外,升级后的星火X1私有化部署简便,定制门槛低—— 4张910B即可部署满血版星火X1,16张910B即可完成行业定制优化 ,再次印证全栈自主可控大模型,具备登顶高水平的实力和持续创新的 潜力。 星火X1升级:长思维链 ...
AI 已学会「阳奉阴违」——OpenAI 研究发现:罚得越狠,AI 作弊就越隐蔽
AI科技大本营· 2025-04-08 10:27
AI 的"狡猾"程度正在超出人们的想象。 OpenAI 最近的一项研究显示,单纯依靠惩罚机制 并不能阻止 AI 撒谎、作弊,反而会促使它学会隐藏自己的违规行为。 而这项研究带给产业 界的启示远超技术层面: 如果 AI 的" 道 德 "只是伪装给人类看的表演,那么现有安全框架 是否在自掘坟墓? 原 文 链 接 : https://www.livescience.com/technology/artificial-intelligence/punishing-ai- doesnt-stop-it-from-lying-and-cheating-it-just-makes-it-hide-its-true-intent-better-study- shows 作者 | Ben Turner 翻译 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 根据 ChatGPT 创建者 OpenAI 最近发布的一项研究显示,为防止 AI 模型发生撒谎或作弊 的行为而设置的一些惩罚机 制,并不能真正阻止它的不当行为——反而只会迫使它学会如 何更好地隐蔽自己的欺骗手段。 (CSDN 付费下载自视觉中国) 大模型的"作弊基因 ...