Workflow
AI推理
icon
Search documents
博通管理层会议:AI推理需求激增,甚至超过当前产能,并未反映在当前预期内
Hua Er Jie Jian Wen· 2025-07-10 08:46
博通最新管理层会议释放出清晰信号——AI推理需求不仅正在迅速放量,而且仍处于上升通道的早期,未来对市场规模和产能 配置的重估,可能带来利润的系统性上修。 据追风交易台,在摩根大通日前组织的一场投资者会议中,博通管理层透露,公司在AI推理领域正迎来超预期的需求增长,甚 至"超过当前产能",而这一趋势尚未被纳入此前对市场规模的预测,或为未来盈利带来上修空间。与此同时,非AI业务也开始 复苏,VMware持续放量,公司整体"多线开火"。 博通CEO Hock Tan与CFO Kirsten Spears表示,过去一年AI需求主要来自训练负载,尤其是"前沿模型"的训练。但最近两个月, 公司在AI推理方面的订单大幅上升。管理层指出,这波推理需求来自客户希望更快地变现其AI投资,"推理的市场容量,可能被 严重低估"。 AI推理需求超预期,有望推高市场规模预测上限 博通管理层表示,定制AI XPU芯片业务依然强劲,增长跑道清晰可见。过去9-12个月中,AI需求主要集中在前沿模型等训练工 作负载上。但在过去2个月里,随着客户努力将投资货币化,公司经历了推理需求的显著激增。管理层认为当前推理需求已超过 产能。 这一强劲的AI推 ...
为什么 DeepSeek 大规模部署很便宜,本地很贵
AI前线· 2025-07-04 06:10
作者 | Sean Goedecke 译者 | 王强 策划 | Tina 什么是批处理推理? GPU 擅长执行大型矩阵乘法(GEMMs,或"通用矩阵乘法")。假设你有一个 token,你想通过模型 传递(即通过乘以其所有权重,其他架构细节不谈)。你将其表示为一个与模型维度(或隐藏大小) 相匹配的向量(即 1x 其大权重矩阵的宽度),然后将其乘过去。那就是 1 个 GEMM。但如果你想 一次通过一批十个 token,也仍然只是一个 GEMM,因为你可以将 token 堆叠成一个矩阵(10x 模 型维度)。这比执行十个稍小的 GEMM 要快得多。因此,推理服务器的实现可能看起来是这样的: 请注意,服务器会决定拉取多大的批次大小。这是吞吐量和延迟之间的权衡。如果你不进行批处理, 只是逐个处理 token,那么没有用户会在队列中等待(上述步骤 3),所以延迟很低(假设你有足够 的 GPU)。然而,如果你进行大量批处理,延迟会很高,因为用户将等待到批次大小填满,但吞吐 量会高得多,因为 GPU 的使用效率更高。 1. 一个请求带着提示词进来 2. 该提示被预填充(通过注意力传递,我们稍后将看到如何将它也做批处理),形成 ...
【大涨解读】算力:出货量可能超iPhone,英伟达新服务器蓄势待发,配套部件有望迎来数倍需求提升
Xuan Gu Bao· 2025-07-03 03:07
Core Insights - The AI server market is experiencing significant growth, driven by advancements in technology and increasing demand for AI applications [3][4] - Major companies like Quanta Computer are actively involved in the development and testing of next-generation AI server chips, indicating a competitive landscape [3] Group 1: Market Performance - On July 3, notable stock performances included Industrial Fulian rising over 8% and Huajin Technology increasing by 5% [1] - New Asia Electronics saw a price increase of 10.01%, with a market capitalization of 57.96 billion [2] - Industrial Fulian's latest price was 22.91, with a market cap of 4549.51 billion [2] - Huajin Technology's stock price reached 81.92, with a market cap of 468.12 billion [2] Group 2: Industry Developments - Goldman Sachs has raised its forecast for the shipment of AI servers, with expectations for high-performance AI servers like H200 and B200 to reach 525,000 and 527,000 units by 2025 and 2026, respectively [4] - The global AI server shipment is projected to reach 1.811 million units this year, marking a year-on-year growth of 26.29%, with high-end AI servers expected to see a 40% increase [4] - The global server market is anticipated to grow from $216.4 billion in 2024 to $332.87 billion by 2028, with a compound annual growth rate (CAGR) of 18.8% [4] Group 3: Cost Structure - In AI servers, GPU costs can account for nearly 70% of the total cost, significantly higher than other components [5] - Upgrading from standard servers to AI training servers results in substantial increases in the value of components such as memory, SSDs, and power supplies [5]
大家都在用AI,程度远超你想象
3 6 Ke· 2025-06-30 07:18
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。 编者按:当公众的目光都聚焦在AI模型迭代时,一场真正的革命已悄然发生:全球企业级AI推理用量正呈指数级飙升,其商业变现能力远超预期。本文用 硬核数据揭示这场静默爆发的产业质变。文章来自编译。 很长时间以来,大多数AI服务(尤其是推理API)的使用量与收入的增长都极其迅猛。SemiAnalysis的Dylan Patel指出,这些API对企业来说利润非常高—— 毛利率有时候高达75%甚至更高。这在搞AI的人当中是众所周知的一个公开事实,但在新模型发布与功能炒作此起彼伏的喧嚣当中,广大公众反而可能忽视 了这一点。 我认为向普通用户提供订阅服务也是盈利的,但重度用户很可能会成为AI公司的成本负担,再加上训练尖端模型还需要明显的资本支出。尽管如此,即便 模型保持不变,其使用量也在呈指数级增长,而且其中很大一部分都在盈利范围内。 早在今年上半年我们看到整个行业取得诸多惊人进展之前,AI使用的极端(某些情况下是指数级)增长就已经发生了。推理模型将推理答案从几百个token 扩展到有时数万个token,这会让使用量图走势限 ...
速递|Meta两周挖走至少7名OpenAI成员,其中4名华人,否认1亿美元签约金,CTO揭开高管薪酬复合结构
Z Potentials· 2025-06-29 05:20
图片来源: Unsplash 最新从 OpenAI 加入 Meta 的赵博士是 OpenAI 多款模型的核心贡献者,包括 o1-mini 和 o3-mini 模 型。后者作为该公司的小型快速推理模型,其性能表现令开发者印象深刻。去年秋季, o1-mini 在数 学能力上甚至超越了 OpenAI 更大的 o1-preview 模型。 根据领英资料显示,赵博士在 2022 年 6 月加入 OpenAI 前,曾是斯坦福大学计算机科学专业的博士 候选人。 根据余嘉辉的领英个人资料显示,他曾领导 OpenAI 的一个感知技术团队,专注于研究人工智能如何 收集和理解周围环境信息。毕书超在领英资料中显示为 OpenAI 多模态后训练负责人。任宏宇同样是 o1-mini 和 o3-mini 项目的核心贡献者。根据赵的公开研究资料显示,他曾在 2018 年与任合作发表过 一篇关于生成式 AI 模型偏见的论文。 过去一周, Meta 从 OpenAI 苏黎世办公室挖走了三名研究人员。这三人专注于多模态 AI 研究,即能 够识别和生成文本、视频及音频的模型。他们于去年底从 Google DeepMind 加入 OpenAI 。研究 ...
Meta挖角OpenAI核心研究员 强化AI推理模型布局
news flash· 2025-06-26 16:31
Meta挖角OpenAI核心研究员 强化AI推理模型布局 金十数据6月27日讯,据科技媒体TechCrunch报道,知情人士表示,Meta已聘请极具影响力的OpenAI研 究员Trapit Bansal,加入公司新成立的AI超级智能部门,从事AI推理模型相关工作。Bansal的加入可能 为Meta的AI超级智能实验室带来重要助力。该实验室目前已汇聚多位行业领军人物,包括前ScaleAI首 席执行官Alexandr Wang、前GitHub首席执行官Nat Friedman以及Safe Superintelligence联合创始人Daniel Gross。值得注意的是,Meta目前尚未在其开源模型家族Llama系列中,公开推出任何AI推理模型。近几 个月来,扎克伯格正通过高薪密集招募人才,以组建Meta全新的AI团队,据传为顶级研究员提供的薪 酬方案高达1亿美元。不过,Bansal此次加盟的具体薪资待遇尚未对外披露。 订阅人工智能动态 +订阅 ...
黄仁勋称AI推理需要更多计算量
news flash· 2025-06-26 01:16
英伟达CEO黄仁勋在英伟达股东大会上表示,推理需要更多计算。仅在过去一年里,tokens(词元)生成 就激增了50到100倍。为了满足这种指数级的激增,大型人工智能工厂正在各地崛起。仅微软在上个季 度就处理了超过100万亿的tokens,是一年前的5倍。(第一财经) ...
从PPTV到PPIO,派欧云不止负债越来越高
Bei Jing Shang Bao· 2025-06-24 15:07
2018年PPTV创始人姚欣和前PPTV首席架构师王闻宇联合创立了PPIO派欧云(以下简称"派欧云"),近日这家采用轻资产运营模式的云计算公司赴港递表。 按2024年的相关营收计,派欧云在中国边缘云计算服务提供商中排名第七,市场份额4.1%,前三位分别是天翼云、移动云、阿里云,三家市场份额总计 36.5%。 和集中式云计算平台相比,分布式云计算更适合图像及音视频传输等应用场景,这会否限制这类平台的发展?见仁见智,但2022—2024年派欧云的销售成本 跟着营收一起增长,经调整净亏损小幅收窄又扩大66%,且负债总额和负债净额均逐年上涨、大客户依赖也是客观事实。 销售成本降不下来 根据计算资源的部署方式,云计算可分为集中式和分布式两种模式。 简单来说,集中式云将大量的计算能力集中于数量有限的大型数据中心,从集中的位置向广泛客户群提供计算、存储及网络服务。分布式云将云资源广泛分 布在不同网络层级及地理区域,特征是节点分散且海量。通过分散资源并将其定位于更接近最终用户的位置,可缩短数据传输距离并减少时延。派欧云就是 分布式云计算企业。 2022—2024年派欧云营收从2.86亿元涨到3.58亿元,再增至5.58亿元, ...
研报 | 英伟达RTX PRO 6000特规版出货受市场关注,但存储器供应紧张成变数
TrendForce集邦· 2025-06-24 04:03
June 24, 2025 产业洞察 TrendForce集邦咨询 近期市场对于NVIDIA RTX PRO 6000系列产品的讨论声量高,预期在需求支撑下,整体出货将有不 俗表现。然而,TrendForce集邦咨询资深研究副总吴雅婷认为,该系列产品受限于存储器供应紧张等 因素,出货量是否能如市场期待,仍有变量。 TrendForce AI服务器 趋势分析 商业洞察 信息精选 TrendForce集邦咨询预期,NVIDIA RTX PRO 6000特规版将于今年下半年推出,吴雅婷分析, NVIDIA的存储器采购策略,为针对不同产品类别多元化供应商布局,HBM主要由SK hynix(SK海 力士)提供、Micron(美光科技)为第二供应商,在LPDDR类别以Micron为主要合作伙伴,GDDR 则仰赖Samsung(三星)供应。 | | HBM | LPDDR5x | GDDR7 | | --- | --- | --- | --- | | Key Supplier | SK hynix | Micron | Samsung | | Note | SK hynix 为主要供应商,但 2025年Micron供应NV ...
关注半导体,脑机接口,深海科技
2025-06-23 02:09
关注半导体,脑机接口,深海科技 20250622 摘要 中伊冲突升级、陆家嘴论坛政策兑现以及沪指技术阻力位等多重因素叠 加,导致 A 股市场风险偏好下降,沪指承压。 宏观经济基本面复苏乏力,5 月社零数据虽超预期但持续性存疑,装备 制造业表现相对较好,地产等其他分项依然面临压力,制约市场上行空 间。 市场内生结构问题显现,小微盘超额收益持续走高导致拥挤度提升,量 化策略调整加剧小微盘下跌,拖累大盘表现,市场脆弱性增加。 季末及中报期前夕,资金从 Q1 的 TMT 方向转向 Q2 的新消费和创新药 方向,短期性价比不高导致部分资金离场,影响大盘走势和成交量。 港股流动性驱动特征明显,港元贬值引发市场对金管局收紧流动性的担 忧,新消费和创新药板块拥挤度较高,新股破发,港股整体调整对 A 股 产生联动效应。 A 股市场本周整体疲弱,仅红利或蓝筹价值板块相对抗跌,资金避险情 绪升温,流向银行和保险板块,地缘事件驱动油气、油运板块走强。 芯片半导体行业表现较强,科创板分层政策支持未盈利硬科技企业上市, 中美博弈加速芯片制造材料设备国产化,存储领域国产化预期提升。 Q&A 本周 A 股市场表现如何?有哪些主要影响因素? ...