推理

Search documents
华尔街这是“约好了一起唱空”?巴克莱:现有AI算力似乎足以满足需求
硬AI· 2025-03-27 02:52
点击 上方 硬AI 关注我们 巴克莱指出,2025年AI行业有足够的算力来支持15亿到220亿个AI Agent。AI行业需从"无意义基准测试"转向实用的Agent产品部署,低推理成本是盈利关键,开源模型将降低 成本。尽管算力看似充足,但高效、低成本Agent产品的专用算力仍有缺口。 硬·AI 作者 |鲍亦龙 编辑 | 硬 AI 继TD Cowen后,巴克莱似乎也开始唱空AI算力。 3月26日,巴克莱发布最新研究称,2025年全球AI算力可支持15-220亿个AI Agent,这足以满足美国和欧盟1亿多白领工作者和超过10亿企业软件许可证的 需求。而同日 TD Cowen分析师称支撑人工智能运算的计算机集群供过于求 。 巴克莱认为现有的AI算力已经足够支持大规模AI代理的部署,主要基于以下三点: 行业推理容量基础 :2025年全球约有1570万个AI加速器(GPU/TPU/ASIC等)在线,其中40%(约630万个)将用于推理, 而这些推理算力中约一半(310万个)将专门用于 Agent/聊天机器人服务 ; 可支持大量用户 :根据不同模型的计算需求,现有算力可支持15亿到220亿个AI代理,这足以满足美国和欧 ...
长文本向量模型在4K Tokens 之外形同盲区?
AI科技大本营· 2025-03-27 02:23
责编 | 梦依丹 2025 年 2 月发布的 NoLiMA 是一种大语言模型(LLM)长文本理解能力评估方法。不同于传统"大海捞针"(Needle-in-a-Haystack, NIAH)测试依赖 关键 词匹配的做法,它最大的特点是 通过精心设计问题和关键信息,迫使模型进行 深层语义理解和推理,才能从长文本中找到答案。Jina AI 技术团队 受到启发,并进针对向量模型 jina-embeddings-v3 进行了类似实验。 NoLiMa: https://arxiv.org/abs/2502.05167 NoLiMA 的研究结果揭示了一个重要问题:那些号称能处理几十万甚至上百万词元(tokens)的 LLM,在真正需要理解长文本的任务里,性能大打折 扣。比如,在 32K 词元的长度下,有 10 个受测模型,表现还不如处理短文本(小于 1K 词元)时的一半好;就连表现最好的 GPT-4o,性能也从接近完 美的 99.3% 掉到了 69.7%。 【编者按】 2025 年 2 月发布的 NoLiMA 是一种大语言模型(LLM)长文本理解能力评估方法。不同于传统"大海捞针"(Needle-in-a-Haystack ...
速递|《指环王》级文本吞吐,谷歌发布Gemini2.5 Pro的能效比突破密码
Z Potentials· 2025-03-26 03:49
图片来源: 1X 谷歌表示,未来其所有新的 AI 模型都将内置推理能力。 自 OpenAI 于 2024 年 9 月推出首个 AI 推理模型 o1 以来,科技行业竞相开发自己的模型以匹配或超越其能力。如今, Anthropic 、 DeepSeek 、谷歌和 xAI 都拥有 AI 推理模型, 这些模型利用额外的计算能力和时间进行事实核查和问题推理,然后再给出答案。 推理技术帮助 AI 模型在数学和编程任务中达到了新的高度。科技界的许多人认为,推理模型将成为 AI 代理的关键组成部分,这些自主系统可以在很大程 度上无需人类干预地执行任务。然而,这些模型也更为昂贵。 谷歌之前已经尝试过 AI 推理模型,去年 12 月发布了"思考"版本的 Gemini 。但 Gemini 2.5 代表了该公司迄今为止在超越 OpenAI 的" o "系列模型方面最认 真的尝试。 谷歌声称, Gemini 2.5 Pro 在多个基准测试中优于其之前的尖端 AI 模型,以及一些领先的竞争 AI 模型。具体来说,谷歌表示他们设计 Gemini 2.5 是为了 在创建视觉上引人入胜的网页应用和代理编码应用方面表现出色。 在一项名为 Aid ...
OpenAI研究负责人诺姆·布朗:基准测试比数字大小毫无意义,未来靠token成本衡量模型智能|GTC 2025
AI科技大本营· 2025-03-24 08:39
责编 | 王启隆 出品丨AI 科技大本营(ID:rgznai100) 今年英伟达大会(GTC 2025)邀请到了 OpenAI 的人工智能推理研究负责人、OpenAI o1 作者 诺姆·布朗(Noam Brown) 参与圆桌对话。 他先是带着大家回顾了自己早期发明"德扑 AI"的工作,当时很多实验室都在研究玩游戏的 AI,但大家都觉得摩尔定律或者扩展法则(Scaling Law)这 些算力条件才是突破关键。诺姆则在最后才顿悟发现,范式的更改才是真正的答案:" 如果人们当时就找到了正确的方法和算法,那多人扑克 AI 会提前 20 年实现 。 " 究其根本原因,其实还是很多研究方向曾经被忽视了。" 在项目开始前,没有人意识到 推理计算会带来这么大的差异。 " 毕竟,试错的代价是非常惨痛的,诺姆·布朗用一句很富有哲思的话总结了直到现在都适用的一大问题:" 探索全新的研究范式,通常不需要大量的计算 资源。但是,要大规模地验证这些新范式,肯定需要大量的计算投入。 " 左为英伟达专家布莱恩·卡坦扎罗,中为诺姆·布朗,右为主持人瓦尔蒂卡 在和英伟达专家的对话过程中,诺姆还对自己加入 OpenAI 之前、成为" 德扑 AI ...
【电子】英伟达GTC2025发布新一代GPU,推动全球AI基础设施建设——光大证券科技行业跟踪报告之五(刘凯/王之含)
光大证券研究· 2025-03-22 14:46
点击注册小程序 特别申明: 本订阅号中所涉及的证券研究信息由光大证券研究所编写,仅面向光大证券专业投资者客户,用作新媒体形势下研究 信息和研究观点的沟通交流。非光大证券专业投资者客户,请勿订阅、接收或使用本订阅号中的任何信息。本订阅号 难以设置访问权限,若给您造成不便,敬请谅解。光大证券研究所不会因关注、收到或阅读本订阅号推送内容而视相 关人员为光大证券的客户。 报告摘要 北京时间3月19日凌晨,英伟达举办2025年GTC大会,黄仁勋在圣何塞 SAP 中心发表的现场主题演讲,关 注代理式AI、机器人、加速计算等领域的未来发展。此外,该大会还包括1000多场具有启发性意义的会 议,以及400多项展示、技术实战培训和大量独特的交流活动。 提出Agentic AI,新的推理范式将继续推动全球数据中心建设 黄仁勋按照"Generative AI(生成式AI)、Agentic AI(智能体)、Physical AI(具身AI)"三个阶段的进 化路线,将Agentic AI描述为AI技术发展的中间态。Scaling Law的发展需要投入更多的数据、更大规模的 算力资源训练出更好的模型,训练规模越大,模型越智能,预计全球数 ...
英伟达的新款 Blackwell Ultra 和 Rubin 芯片如何引领下一波 AI 浪潮
美股研究社· 2025-03-21 10:48
作者 | Aseity Research 编译 | 华尔街大事件 英伟达(NASDAQ: NVDA ) 最近发布了其新系列 Blackwell Ultra 和 Rubin 芯片,相信它们 将引领下一波人工智能投资浪潮。如果生成式人工智能是第一个,那么推理式人工智能将是第 二个,这些芯片似乎考虑到了这些架构。本质上,Blackwell 是 2024 年发布的 2024 Blackwell 型号的涡轮增压版。这些芯片提供的一些最大好处是内存带宽大幅增加,单个 GPU 上的内存 带宽从 192GB 飙升至 288GB。实际上,这使得这些 GPU 能够处理更大的人工智能模型,从 而使它们能够高效处理密集型工作负载。它们对于训练深度学习应用程序也更加实用。 这些芯片的另一个主要特点是,除了拥有更大的内存之外,它还建立在 Blackwell 的"基于图 块"的设计之上,而 Ultra 系列旨在进一步增强这一设计,使 性能 比其前代产品提高约 1.5 倍。 Rubin 将于 2026 年发布,将取代 Blackwell,由一对芯片组成。它们由一个 名为 Vera 的定制 Arm CPU 组成,旨在并行工作。这是 AI 进化 ...
电子行业快评报告:英伟达GTC2025大会召开,关注泛AI前沿科技
Wanlian Securities· 2025-03-20 07:39
Investment Rating - The industry investment rating is "Outperform the Market," indicating an expected relative increase of over 10% in the industry index compared to the broader market within the next six months [11]. Core Insights - NVIDIA continues to lead the high-end AI chip development with the introduction of the Blackwell Ultra GPU, which features significant upgrades in HBM technology, achieving a FP4 precision computing power of 15 PetaFLOPS, a 2.5 times improvement over the previous Hopper architecture [2]. - The AI sector is entering a "big inference" era, with substantial demand for computing power. NVIDIA's CEO announced that major cloud service providers are expected to purchase 3.6 million Blackwell architecture chips by 2025, with data center spending projected to reach $1 trillion by 2028 [3]. - NVIDIA is enhancing its AI ecosystem by launching products tailored for various applications, including the Blackwell Ultra NVL72 cabinet for AI inference, which shows a 1.5 times performance improvement over its predecessor [3][4]. Summary by Sections Industry Events - The NVIDIA GTC 2025 conference was held from March 17 to 21, 2025, in San Jose, California, where CEO Jensen Huang discussed advancements in AI technology, chip product planning, and multi-domain collaborations [1]. AI Chip Development - The Blackwell Ultra GPU features advanced HBM3e memory with 288GB of VRAM, and NVIDIA has outlined a roadmap for three future GPU architectures: Rubin, Rubin Ultra, and Feynman [2]. AI Applications - NVIDIA's new products, including the Dynamo AI factory operating system, optimize the performance of AI models, achieving a 40 times performance increase over the Hopper architecture in inference tasks [3][4]. Investment Recommendations - The report suggests focusing on investment opportunities within the AI computing and application sectors, particularly in companies leading in HBM and CPO technologies, as well as domestic firms benefiting from China's new national system advantages [9].
软银收购Ampere Computing
半导体行业观察· 2025-03-20 01:19
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:内容编译自 NYT ,谢谢。 软银周三表示,已同意以 65 亿美元收购硅谷芯片初创公司Ampere Computing,加倍押注源自智能 手机的技术将主导全球数据中心。 这笔交易还反映了这家日本企业集团的信念,即 Ampere 的芯片可以开始在人工智能领域发挥重要 作用,而英伟达迄今为止在该领域获得了最多的回报。 Ampere 成立于八年前,主要销售基于 Arm Holdings 技术的数据中心芯片。Arm Holdings 是一家 英国公司,其授权的芯片设计已为几乎所有手机提供支持。软银于 2016 年收购了 Arm,并一直致 力于让基于 Arm 技术的芯片得到更广泛的应用,并用于不同的任务。 软银董事长兼首席执行官孙正义在准备好的讲话中表示:"人工智能的未来需要突破性的计算能 力。""Ampere 在半导体和高性能计算方面的专业知识将有助于加速这一愿景,并深化我们对美国人 工智能创新的承诺。" 软银表示,将以自己的名义将 Ampere 作为全资子公司进行运营。 此次出售正值一系列交易和联盟变动之际,这些交易和联盟变动的背后是市场对用于支持 OpenAI 的 ...
解读英伟达的最新GPU路线图
半导体行业观察· 2025-03-20 01:19
如果您希望可以时常见面,欢迎标星收藏哦~ Nvidia 在很大程度上拥有 AI 训练,并且如今在 AI 推理方面占有很大的份额,尤其是基础和推理 模型。所以你可能会认为路线图上没有具体信息。但 Nvidia 也让世界上很多人想知道对 AI 计算的 需求是否最终会减弱,或者至少会用更便宜的替代品来满足。此外,作为其最大客户的所有超大规 模和云构建者也在构建自己的 CPU 和 AI 加速器;公开的路线图是为了提醒他们 Nvidia 致力于构 建比他们更好的系统——并让我们都知道,这样我们就可以跟踪谁在实现他们的里程碑,谁没有。 Nvidia 的路线图非常宏大,它拥有 GPU、CPU、纵向扩展网络(用于跨 GPU 和有时 CPU 共享内 存的内存原子互连)和横向扩展网络(用于更松散地将共享内存系统相互连接)。它还有 DPU,即 具有本地化 CPU 和有时 GPU 处理的高级 NIC,以下路线图中未显示这些产品: Quantum 系列 InfiniBand 交换机的容量增长也同样不尽如人意,也没有入选。对于人工智能领域来 说,InfiniBand 的重要性越来越低,因为人工智能领域希望能够进一步扩展,而基于 Infi ...
深度解读黄仁勋GTC演讲:全方位“为推理优化”,“买越多、省越多”,英伟达才是最便宜!
硬AI· 2025-03-19 06:03
作者 |赵雨荷 编辑 | 硬 AI 当地时间3月18日周二,英伟达CEO黄仁勋在加州圣何塞举行的英伟达AI盛会GTC 2025上发表主题演 讲。美国知名半导体咨询机构Semianalysis深度解读黄仁勋GTC演讲,详细阐述英伟达在推动AI推理性能 提升方面的最新进展。 市场担心的是,DeepSeek式的软件优化以及英伟达主导的硬件进步带来的巨大成本节省,可能导致对AI 硬件的需求下降。然而,价格会影响需求,当AI成本降低时,AI能力的边界不断被突破,而需求随之增 加。 随着英伟达在硬件和软件方面的推理效率提升,使得模型推理和智能代理的部署成本大幅降低,从而实现 成本效益的扩散效应,实际的消费量反而会增加,正如英伟达的口号所说的那样:"买越多、省越多"。 点击 上方 硬AI 关注我们 Semianalysis表示,在GTC2025大会上,英伟达推出的推理Token扩展、推理堆栈与Dynamo技术、共封装光学 (CPO)技术等创新将显著降低AI总拥有成本,使得高效推理系统的部署成本大幅下降,并巩固了英伟达在全球AI生态 系统中的领先地位。 硬·AI 以下为文章的核心观点: 推理Token扩展:预训练、后训练与推 ...