推理

Search documents
大模型越反思越错,原来是长链推理通过自我说服加重幻觉 | 北邮
量子位· 2025-07-03 04:26
北邮网安团队 投稿 量子位 | 公众号 QbitAI 风险缺口:长链CoT放大"误差滚雪球" 推理大模型(RLLMs)能把复杂问题拆解成几十步推理,再给出看似缜密的结论。然而,随着推理链条变长,一个令人不安的趋势浮出水面 —— 错误不再是偶发失误,而是沿链条滚雪球式放大 。 在医疗、金融、法律等高风险场景,一次细小偏差就可能酿成灾难。 当推理链从3步延伸到50+步,幻觉率暴增10倍;反思节点也束手无策。 遗憾的是,当前安全评估几乎都停留在结果级:判定答案对错、衡量毒性与否,犹如"考试只看最后分数"。 这种做法忽视了一个关键问题: 错误到底是如何在链内生根、扩散并固化的? 如果无法洞察这一机制,就难以对症下药。 北京邮电大学的研究团队为解决这一问题,采取了以下方法: 来自北京邮电大学的研究团队通过 思维链审计实验 ,首次定量揭示了这一"越想越错"现象背后的元认知偏差: 长链推理中的反思不是纠错机制,而是给幻觉颁发"理性证书"—— 模型为保持与用户提示语义一致, 宁可篡改协议定义也不否定前提 。 首先 基于RFC协议文档构建受控知识域 ,再让模型生成 30–60步 的长链推理,并在关键节点插入reflection ...
【大涨解读】算力:出货量可能超iPhone,英伟达新服务器蓄势待发,配套部件有望迎来数倍需求提升
Xuan Gu Bao· 2025-07-03 03:07
Core Insights - The AI server market is experiencing significant growth, driven by advancements in technology and increasing demand for AI applications [3][4] - Major companies like Quanta Computer are actively involved in the development and testing of next-generation AI server chips, indicating a competitive landscape [3] Group 1: Market Performance - On July 3, notable stock performances included Industrial Fulian rising over 8% and Huajin Technology increasing by 5% [1] - New Asia Electronics saw a price increase of 10.01%, with a market capitalization of 57.96 billion [2] - Industrial Fulian's latest price was 22.91, with a market cap of 4549.51 billion [2] - Huajin Technology's stock price reached 81.92, with a market cap of 468.12 billion [2] Group 2: Industry Developments - Goldman Sachs has raised its forecast for the shipment of AI servers, with expectations for high-performance AI servers like H200 and B200 to reach 525,000 and 527,000 units by 2025 and 2026, respectively [4] - The global AI server shipment is projected to reach 1.811 million units this year, marking a year-on-year growth of 26.29%, with high-end AI servers expected to see a 40% increase [4] - The global server market is anticipated to grow from $216.4 billion in 2024 to $332.87 billion by 2028, with a compound annual growth rate (CAGR) of 18.8% [4] Group 3: Cost Structure - In AI servers, GPU costs can account for nearly 70% of the total cost, significantly higher than other components [5] - Upgrading from standard servers to AI training servers results in substantial increases in the value of components such as memory, SSDs, and power supplies [5]
腾讯研究院AI速递 20250703
腾讯研究院· 2025-07-02 15:52
生成式AI 一、 从亲密伙伴抢人,Cursor挖走Claude Code两位核心人物 1. Cursor开发商Anysphere挖走Claude Code核心人物Boris Cherny和Cat Wu,尽管双方 是密切合作伙伴; 2. Anthropic年收入达40亿美元,估值615亿美元,Claude被视为最佳编程模型; 3. Anysphere收入三个月内翻倍至年收入5亿美元,估值达99亿美元,AI编程市场竞争加 剧。 https://mp.weixin.qq.com/s/xsPfOFxttF7s9bq3o-F_Iw 二、 智谱开源GLM-4.1V-Thinking视觉推理模型,10B级SOTA 1. 智谱开源GLM-4.1V-9B-Thinking模型,采用课程采样强化学习策略,在18项权威评测 中超越8倍参数的72B模型; 2. 模型架构结合ViT视觉编码器、MLP适配器和GLM语言解码器,引入2D-RoPE和3D- RoPE位置编码增强处理能力; 3. 训练过程分为多模态预训练、长上下文持续训练、监督微调和课程采样强化学习四个阶 段,显著提升逻辑推理能力。 https://mp.weixin.qq. ...
OpenAI 研究员 Noam Brown:Mid-training 是新的 pre-training
海外独角兽· 2025-07-02 11:03
两个 编译:haozhen 编辑:siqi 海外独角兽原创编译 转载请注明 去年以来,随着 OpenAI 在 o1 模型中提出 RL 叙事 ,以及 DeepSeek 发布的 R1 模型 解开了 RL 谜 题,AI 行业进入了新范式,智能的下半场也真正开启。 如果说过去 LLM 主要依赖于模式匹配与数据记忆,如今,推理能力的兴起让模型能力从表层关联跃 升到复杂认知。推理不仅仅是参数数量或训练数据的增加,而是能充分利用算力进行深度探索。因 此,推理能力既是涌现智能的重要催化剂,也是未来模型在科学发现、复杂决策与 multi-agent 协作 中的关键。 本篇内容是 OpenAI 研究员 Noam Brown 的最新播客。Noam 是全球最顶尖的推理研究员之一,他最 知名的两个项目分别是在德扑中击败顶尖人类玩家的 AI 系统 Libratus 和 Pluribus,2022 年他又开发 了首个在复杂多人策略游戏 Diplomacy 中达到人类水平的 AI,名为 Cicero。 这次播客中,他详细分享了自己在 scaling test time compute 上的前沿观点: • 推理(reasoning)是模型涌现 ...
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
量子位· 2025-07-02 04:46
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 如果一个视觉语言模型(VLM)只会"看",那真的是已经不够看的了。 因为现在真实世界的任务简直不要太复杂,要想让AI干点实事儿,光有多模态还不够,必须还得有 深度思考 的强推理能力。 而就在刚刚, 智谱 发布并开源了一个仅9B大小的模型—— GLM-4.1V-9B-Thinking ,在28项评测中一举拿下 23个SOTA! 毫无悬念地成为10B级别里 效果最好的VLM模型 ;而在18项评测中,它都可以与自身8倍参数量的Qwen-2.5-VL-72B一较高下,甚至是超 越的程度。 整体来看,GLM-4.1V-9B-Thinking之所以能够这般"以小搏大",核心原因就是 会思考 : 引入了 思维链 (Chain-of-Thought)推理机制,并通过 课程采样强化学习 (RLCS,Reinforcement Learning with Curriculum Sampling)来全面提升模型能力。 值得一提的是,在智谱这次发布新模型之际,浦东创投集团和张江集团对其进行了 10亿元投资 ,并将于近期完成首次交割。 评测是一方面,但也正如我们刚才提到的,现在的A ...
同时监督和强化的单阶段大模型微调,告别“先背书再刷题”,推理泛化双提升|中科院&美团等
量子位· 2025-07-02 02:02
SRFT团队 投稿 量子位 | 公众号 QbitAI 通过单阶段监督微调与强化微调结合,让大模型在训练时能同时利用专家演示和自我探索试错,有效提升大模型推理性能。 中国科学院自动化研究所深度强化学习团队 联合 美团 ,提出一种 单阶段监督-强化微调方法——SRFT (Supervised Reinforcement Fine-Tuning) 。该方法通过基于熵的动态加权机制,将两种训练范式结合。 在大语言模型(LLM)的推理能力提升上,监督微调(SFT) 和强化学习(RL,有时也称作强化微调,RFT)是两条核心技术路线。但它们 各自都存在瓶颈: SFT擅长模仿专家解题思路,类似"背书",能快速为模型打下基础,但缺点是容易陷入死记硬背,缺乏在新问题上灵活应用和寻找最优解的能 力; RFT/RL通过不断试错来探索解题方法,类似"刷题",能够发现更优解法,但其探索过程效率低下,容易面临模式崩溃风险。 因此,目前研究者通常采用两阶段 顺序 方法SFT→RFT/RL:先用SFT学习高质量数据集,再用RFT/RL进一步优化对齐LLM策略(即先"背 完书"再"去刷题")。 然而,这种串行方式不仅影响学习效率,还常常导致模型 ...
深度|CEO详解亚马逊的AI路径图: 创收数十亿只是起点
Sou Hu Cai Jing· 2025-07-01 07:54
细数AWS的成就 Ed Ludlow:您担任AWS的CEO一职基本已满一年,作为开场问题,这段时间AWS取得的最大成就是什么? 图片来源: Bloomberg Z Highlights Matt Garman ,亚马逊云科技( AWS )首席执行官。其 2006 年加入亚马逊,任 CEO 前,担任 AWS 全球销售、市场营销 和客户服务高级副总裁。本次访谈是 2025 年 6 月由 Bloomberg Technology 一位知名科技记者 Ed Ludlow 发起,深入对话这 位见证 AWS 和 AI 爆发式成长的行业领导人。 Matt Garman:感谢邀请。很高兴再次来到这里,这是充满创新的一年,令人难以置信。回顾过去,最让我兴奋的是客 户创新和对我们的众多新技术采用的速度。 当您观察那些正在进行云迁移之旅的客户时,会发现他们中许多人已经持续这个过程多年。但今年尤为特殊,我们真 正见证了人工智能技术和生成式技术的爆发式增长。越来越多的客户正在将整个业务体系迁移到云端和AWS,见证这 种技术发展的惊人速度确实令人振奋。这是非常精彩的第一年。 随着时间推移,AI工作负载中推理的比重会持续增加。每个应用程序都 ...
深度|CEO详解亚马逊的AI路径图: 创收数十亿只是起点
Z Potentials· 2025-07-01 07:22
图片来源: Bloomberg Z Highlights Matt Garman ,亚马逊云科技( AWS )首席执行官。其 2006 年加入亚马逊,任 CEO 前,担任 AWS 全球销售、市场营销和客户服务高级副总裁。本次访 谈是 2025 年 6 月由 Bloomberg Technology 一位知名科技记者 Ed Ludlow 发起,深入对话这位见证 AWS 和 AI 爆发式成长的行业领导人。 Ed Ludlow: 能否透露生成式 AI 业务的具体营收数据? Matt Garman: 您是指全球市场还是 AWS 业务? 细数 AWS 的成就 Ed Ludlow: 您担任 AWS 的 CEO 一职基本已满一年,作为开场问题,这段时间 AWS 取得的最大成就是什么? Matt Garman: 感谢邀请。很高兴再次来到这里,这是充满创新的一年,令人难以置信。回顾过去,最让我兴奋的是客户创新和对我们的众多新技术采用的 速度。 当您观察那些正在进行云迁移之旅的客户时,会发现他们中许多人已经持续这个过程多年。但今年尤为特殊,我们真正见证了人工智能技术和生成式技术 的爆发式增长。 越来越多的客户正在将整个业务体系迁 ...
阿里通义开源首个CoT音频模型,音·画同步被狠狠拿捏了
量子位· 2025-07-01 03:51
一水 发自 凹非寺 量子位 | 公众号 QbitAI 没错,这就是阿里通义语音团队最新开源的 泛音频生成模型ThinkSound ,主要用于视频配音,主打 让每一帧画面都有专属匹配音效 。 据介绍,它首次将今年大热的 CoT思维链推理 引入了音频领域,解决了传统视频配乐技术往往只能生成单调的背景音,而难以捕捉画面中的 动态细节和空间关系的难题。 AI音效已经进化成这样了吗?? 打开声音 ,来快速感受一下最新feel: 模拟婴儿哭声,那叫一个高低起伏、荡气回肠,整个节奏和婴儿表情姿态神同步了。 一辆火车由远及近驶来,整个背景音也颇具空间层次感,毫不违和。 甚至连小号这种乐器演奏,声音也能和演奏者的动作一一对上。 就是说,AI现在也能像专业音效师一样逐步思考,通过捕捉视觉细节来生成音画同步的高保真音频。 官方测评显示,ThinkSound在业界知名的音视频数据集VGGSound上,对比6种主流方法 (Seeing&Hearing、V-AURA、FoleyCrafter、 Frieren、V2A-Mapper和MMAudio) ,在核心指标上均实现了显著提升。 | Method | | | | Objective ...
3D芯片堆叠,新方法
半导体行业观察· 2025-07-01 01:03
来源:内容 编译自 semiengineering 。 半导体封装的下一个重大飞跃将需要一系列新技术、新工艺和新材料,但它们将共同实现性能的数量 级提升,这对于人工智能时代至关重要。 并 非 所 有 这 些 问 题 都 已 得 到 彻 底 解 决 , 但 最 近 的 电 子 元 件 技 术 大 会 (ECTC) 让 人 们 得 以 一 窥 自 ChatGPT 的推出震惊科技界以来,过去几年中取得的巨大进步。AMD、台积电、三星、英特尔以及 众多设备供应商详细介绍了混合键合、玻璃芯基板、微通道冷却或直接冷却以及背面电源方案散热等 方面的改进。 AMD 高级副总裁兼企业研究员 Sam Naffziger 在一次关于人工智能计算的演讲中表示:"人工智能 改变超级计算机/高性能计算领域的方式令人惊叹。" ChatGPT 和 Gemini 吸收了整个互联网数据并 用于训练模型,但高质量的文本数据已被完全消耗。人工智能变得更加智能的方式是通过所谓的训练 后测试时计算(或思维链推理)的方法。在这一过程中,模型相互检验,生成合成数据并迭代响应, 最终产生更周全的结果。尽管每一次智能的提升都具有巨大的价值,但要获得智能的线性回 ...