推理

Search documents
超长推理还能节省计算!Salesforce开源神器两连发:教大模型边想边省,显著提升数学编程准确率
量子位· 2025-05-23 06:14
Salesforce团队 投稿 量子位 | 公众号 QbitAI 推理大模型如何提升效率?Salesforce AI Research开源神器两连发—— Elastic Reasoning 和 Fractured Sampling 。 Elastic Reasoning用"想多少、答多少"替代了"想到哪算哪",让模型在预算范围内思考更合理,输出缩短30%,同时保持(甚至提高)了准 确性。 Fractured Sampling让模型"少想早答",重新定义了思维链推理的成本-性能前沿,使LLM能够在更低的计算开销下实现强大的推理。 这两种方案显著提高了数学和编程任务的准确率,在推理预算紧张时依然表现出色。 Elastic Reasoning:首次实现"思考-解题"分开管预算 当前的推理大模型在处理任务时往往需要生成长的Chain-of-Thought(CoT)推理链,效果虽好,但开销很大。 在预算有限的情况下,Elastic Reasoning提出了一种新的"思考分段法":把推理流程显式划分为 思考部分 和 解题部分 ,为它们分别分配 token预算。 通俗地讲,让大模型每次生成时,不再一股脑"想到哪说到哪",而 ...
以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能提升30%!
机器之心· 2025-05-23 04:17
机器之心发布 机器之心编辑部 现如今,随着参数规模的指数级增长,大语言模型(LLM)的能力边界不断被打破,AI 的智力正在经历快速跃迁。但随之而来的是,大模型在落地过程中面临着 一系列推理层面的难题,比如推不动、算不起、部署慢,导致推理成本高昂,性能冗余浪费严重。 因此,大模型推理的「速度」与「能效」成为所有算力厂商与算法团队绕不开的核心命题,如何让它们真正「跑得快、用得省」亟需全新的解法。这显然不仅仅 是工程挑战,更要在承接大模型推理压力的同时,在能效、延迟、成本等多方面实现可控与优化。 在这一背景下,华为团队和昨天一样(参考: 帮大模型提速 80%,华为拿出昇腾推理杀手锏 FlashComm,三招搞定通算瓶颈 ),用数学补物理,给出了一份深度 融合软硬件的系统性方案! 他们基于昇腾算力,正式发布了三项重要的硬件亲和算子技术研究,带来了大模型推理速度与能效的双重革命 。具体包括如下: 可以看到,华为团队着力通过对大模型推理中关键算子的重构优化,实现能效、多卡协同和速度三大维度的全面突破。 作为 AI 大模型执行计算的「原子级工具」,算子如同乐高积木中的基础模块,负责从加减乘除到特征提取的一切核心操作。它们不 ...
Google不革自己的命,AI搜索们也已经凉凉了?
Hu Xiu· 2025-05-23 03:23
Group 1 - Google announced the launch of an advanced AI search mode driven by Gemini at the Google I/O developer conference, moving from a "keyword + link list" approach to "natural language interaction + structured answers" [1] - In 2024, Google's search business contributed $175 billion, accounting for over half of its total revenue, indicating that the transition to AI search may impact this revenue stream [2] - Bernstein research suggests that Google's search market share may have dropped from over 90% to 65%-70% due to the rise of AI ChatBots, prompting Google to act [3] Group 2 - The entry of Google into AI search is seen as a response to the threat posed by Chatbots that are consuming traffic, indicating a challenging environment for new AI search players [4] - Perplexity's user traffic increased from 45 million to 129 million over the past year, a growth of 186%, but its actual revenue was only $34 million due to frequent discounts, leading to a net loss of $68 million in 2024 [9] - The funding landscape for AI search products has changed significantly, with only 10 products raising a total of $893 million from August 2024 to April 2025, compared to 15 products raising $1.28 billion in the previous period [12][14] Group 3 - The overall trend in AI search engines is shifting towards smaller, more specialized products, moving away from the idea of creating a new Google Search [17] - Major players like Microsoft, OpenAI, and Google have integrated AI search functionalities into their existing platforms, making it difficult for standalone AI search products to compete [18][26] - The introduction of reasoning models has improved user experience in search functionalities, but many AI search products have not differentiated themselves sufficiently, leading to a decline in user engagement [26][30] Group 4 - New AI search products are focusing on niche markets, such as health, legal, and video search, to carve out a unique space in the competitive landscape [50] - Companies like Consensus and Twelve Labs are developing specialized search engines targeting specific user needs, such as medical research and video content [32][43] - The commercial viability of AI search products remains a significant challenge, with Google exploring ways to monetize its AI search mode while facing potential declines in click-through rates for traditional ads [51]
Claude 4发布!AI编程新基准、连续编码7小时,混合模型、上下文能力大突破
Founder Park· 2025-05-23 01:42
文章转载自「新智元」。 今天凌晨的 Anthropic 开发者大会上,Claude 4 登场。 CEO Dario Amodei亲自上阵,携Claude Opus 4和 Claude Sonnet 4亮相,再次将编码、高级推理和AI智能体,推向全新的标 准。 其中,Claude Opus 4是全球顶尖的编码模型,擅长复杂、长时间运行的任务,在AI智能体工作流方面性能极为出色。 而Claude Sonnet 4,则是对Sonnet 3.7 的重大升级,编码和推理能力都更出色,还能更精准地响应指令。 同时,Claude把这段时间积攒的一系列产品,通通一口气发布了—— Claude Opus 4和Sonnet 4混合模型的两种模式 :几乎即时的响应和用于更深度推理的扩展思考。 扩展思考与工具使用(测试版) :两款模型均可在扩展思考过程中使用工具(例如网络搜索),使Claude能在推理与工具使 用间灵活切换,从而优化响应质量。 新的模型能力 :两款模型均可并行使用工具,更精确地遵循指令,并且(当开发者授予其访问本地文件的权限时)展现出显 著增强的记忆能力,能提取、保存关键信息,以保持连续性,并随时间积累隐性知识。 C ...
全球最强编码模型 Claude 4 震撼发布:自主编码7小时、给出一句指令30秒内搞定任务,丝滑无Bug
AI前线· 2025-05-22 19:57
该系列模型下共有两个型号:Claude Opus 4 和 Claude Sonnet 4,为编码、高级推理和 AI 代理设 定新的标准。 作者 | 冬梅 Claude 4 系列模型发布,编码、推理能力更上一步 昨天夜里,在 Anthropic 的首届开发者大会上,Anthropic CEO Dario Amodei 宣布 Claude 4 正式发 布。 | | | | SIMULE T NUTHINI NJ | | | | | --- | --- | --- | --- | --- | --- | --- | | | Claude Opus 4 | Claude Sonnet 4 | Claude Sonnet 3.7 | OpenAl o3 | OpenAl GPT-4.1 | Gemini 2.5 Pro Preview (05-06) | | Agentic coding SWE-bench Verified15 | 72.5% / 79.4% | 72.7% / 80.2% | 62.3% / 70.3% | 69.1% | 54.6% | 63.2% | | Agentic terminal cod ...
一场对话,我们细扒了下文心大模型背后的技术
量子位· 2025-05-22 12:34
金磊 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI "我们已经过渡到了可以进行复杂推理的下一个模型范式。" OpenAI CEO奥特曼在年度总结中,给出了他关于大模型未来发展的论断。 推理模型的重要性正在上升,成为了继基础模型之后各家厂商厮杀的新战场。 推理模型百家争鸣,究竟 哪家能力 更强?最近,这个问题有了答案。 近期, 中国信息通讯研究院 (信通院)发布了一项最新的大模型推理能力评估成绩,结果显示—— 文心X1 Turbo 在24项能力评估中,16项达5分、7项达4分、1项达3分,综合评级获当前 最高级"4+级" 。 而且还是国内首款,也是唯一通过该测评的大模型。 为什么文心能够入围"4+级"? 在百度刚刚举办的 AI Day 活动中, 百度集团副总裁吴甜 深入浅出地对其最新大模型,从模型、数据、应用等诸多方面做了深度解析和科 普,我们也与 她进行了一番对话 。 不妨从中来挖掘这个问题的答案。 △ 百度集团副总裁,吴甜 多模态融合,模仿人类思考 演讲中,吴甜介绍了文心大模型最新进展,也就是其在上个月发布的 文心4.5 Turbo 和 文心X1 Turbo : 两个新模型的核心亮点,也代表了文心 ...
大模型推理,不再是“一根筋”
虎嗅APP· 2025-05-22 11:41
HUAWEI X HUXIU 没有人不在期待大模型能够成为下一个电动车,作为代表中国的新兴产业,在世界范围内掀 起狂澜。 然而主流的MoE架构大模型,却苦于其结构上的"先天不足":巨大的硬件成本与多重拖累效 率的环节,使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。 作为智能基础设施提供商,华为在这场战役中另辟蹊径,利用其在数学算法和工程领域的深 厚积累,为DeepSeek显著提升了效率及用户体验。 山就在那里,但中国企业找到了不一样的登顶之路。 近期,虎嗅将打造《华为技术披露集》系列内容,全面揭秘超大规模MoE模型推理部署技 术,通过一连串的技术报告,首次全面披露技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.4 :通信优化 01 大模型的推理, 就只是算力吗? 大语言模型(Large Language Models, LLMs) 自从其问世以来,便迅速成为全球科技领域乃至 整个社会的焦点。 根据Scaling law,大语言模型的能力与其参数量的对数正相关,因此大语言模型的参数 ...
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 10:25
机器之心发布 机器之心编辑部 在今年 2 月的 DeepSeek 开源周中,大模型推理过程中并行策略和通信效率的深度优化成为重点之一。 近日, 华为数学家出手,祭出 FlashComm,三箭齐发,解决大模型推理通算难题 : 随着大语言模型(Large Language Models, LLMs)规模的指数级扩张,其部署形态也随之变化,显卡配置朝着规模化、集约化演进。从神经网络时代的单卡部署, 到稠密模型时代的多卡 / 单节点部署,再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家(Mixture of Experts, MoE)模型,大语言模型甚至会采用数百卡 组成的集群和超节点来部署。 可以说,模型推理早已不是「单兵作战」,而是一场高协同的「群体作战」。而在这基于集群的大模型推理中, 集合通信操作就像是一群工人协作盖房子时传递 材料和信息的方式,能让多个计算节点高效配合完成任务 。 由上可以看出, 集合通信操作是大模型推理中多个计算节点协作的「桥梁」,不同的并行策略(TP、DP、EP)通过这些操作实现高效的数据交互和计算,从而 加速大模型的推理过程 。 通信:Scaling law 头顶的 ...
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 04:13
机器之心发布 机器之心编辑部 在今年 2 月的 DeepSeek 开源周中,大模型推理过程中并行策略和通信效率的深度优化成为重点之一。 近日, 华为数学家出手,祭出 FlashComm,三箭齐发,解决大模型推理通算难题 : 随着大语言模型(Large Language Models, LLMs)规模的指数级扩张,其部署形态也随之变化,显卡配置朝着规模化、集约化演进。从神经网络时代的单卡部署, 到稠密模型时代的多卡 / 单节点部署,再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家(Mixture of Experts, MoE)模型,大语言模型甚至会采用数百卡 组成的集群和超节点来部署。 可以说,模型推理早已不是「单兵作战」,而是一场高协同的「群体作战」。而在这基于集群的大模型推理中, 集合通信操作就像是一群工人协作盖房子时传递 材料和信息的方式,能让多个计算节点高效配合完成任务 。 有一些常用集合通信操作,比如 全量规约(AllReduce) 可以想象成一群工人各自收集了不同区域的建筑材料数据,全量规约就是把所有工人手里的数据汇总到 一个地方,进行求和、求平均值等计算。在大模型里,多个计算 ...
黄仁勋强调“推理AI时代才刚开始” AI基建规模 十年看10万亿美元
Jing Ji Ri Bao· 2025-05-21 23:27
Group 1 - The core viewpoint is that the AI infrastructure and factory market is in its early stages and is expected to grow from several hundred billion to over 10 trillion USD in the next decade [1] - NVIDIA's CEO Jensen Huang emphasizes the importance of advanced packaging for AI development, stating that current options are limited to CoWoS due to the stagnation of Moore's Law [1] - Huang highlights that NVIDIA is committed to driving the development of advanced packaging technologies, using their own larger chips as an example of how they utilize CoWoS for integration [1] Group 2 - NVIDIA's product planning involves annual upgrades, where improving equipment efficiency can significantly increase data center revenues while reducing costs [2] - The company advises clients to adopt a gradual purchasing strategy to avoid over-investment in outdated technology, ensuring continuous cost reduction [2] - Huang mentions the need for greater manufacturing resilience and diversification globally, with some production remaining in the U.S. while maintaining national security [2]