AI推理

Search documents
智通决策参考︱恒指稳步推进 重点观察机器人和稀土概念表现
Zhi Tong Cai Jing· 2025-05-12 00:51
【主编观市】 上周重要会议对港股稳定起到了关键作用,恒指继续稳步推进。 周末两个方向传来停火消息,1,印巴宣布停火,特朗普也确认,不过和美国斡旋没多大关系,是印度 太拉夸。关注资本的动向。2,当地时间5月10日,乌克兰外交部长瑟比加表示,乌克兰和所有盟友准备 好从12日开始在陆地、空中和海上实现至少30天的完全无条件停火。当地时间5月11日凌晨,俄罗斯总 统普京在克里姆林宫举行新闻发布会时提议,于5月15日在土耳其伊斯坦布尔恢复俄乌直接谈判。这显 示俄乌方向也在往好的方面演化。 而市场重头戏其实是中美,5月10日中美双方会谈长达8小时,从时间判断应该是已经互相试探完"需求 和底线",开始进入解决分歧阶段。目前是说有建设性进展,更多细节有待披露。会谈最终结果对市场 走向会起到重大引领作用。 次要方面是美国4月CPI数据发布及美联储主席鲍威尔发表讲话,主要观察对6月降息的看法。 业绩层面,本周互联网巨头公布财报,如周三(5月14日),腾讯控股公布2025年Q1财报。其它有京东 和阿里。 综合来看,外围冲突趋缓对我们有利,而中美谈判本身也预期不高。即便没有取得进展,最差也是中 性。美国相对更着急。 热点方向,国家出 ...
芯片新贵,集体转向
半导体行业观察· 2025-05-10 02:53
在这种格局下,新晋芯片企业在训练市场几乎没有生存空间。"训练芯片的市场不是大多数玩家 的竞技场",AI基础设施创业者坦言,"光是拿到一张大模型训练订单,就意味着你需要烧掉数千 万美元——而且你未必赢。" 如果您希望可以时常见面,欢迎标星收藏哦~ 在AI芯片这个波澜壮阔的竞技场上,一度被奉为"技术圣杯"的大规模训练,如今正悄然让位于更 低调、但更现实的推理市场。 Nvidia依然在训练芯片市场一骑绝尘,Cerebras则继续孤注一掷地打造超大规模计算平台。但其 他曾在训练芯片上争得面红耳赤的玩家——Graphcore、英特尔Gaudi、SambaNova等——正在 悄悄转向另一个战场:AI推理。 这一趋势,并非偶然。 AI训练作为一个重资本、重算力、重软件生态的产业,Nvidia的CUDA工具链、成熟的GPU生态 与广泛的框架兼容性,使其几乎掌握了训练芯片的全部话语权。而Cerebras虽然另辟蹊径,推出 了超大芯片的训练平台,但仍局限于科研机构和极少数商业化应用场景。 正因如此,那些曾在训练芯片上"正面硬刚"Nvidia的创业公司,开始寻求更容易进入、更能规模 化落地的应用路径。推理芯片,成为最佳选项。 Gr ...
AI推理时代 边缘云不再“边缘”
Zhong Guo Jing Ying Bao· 2025-05-09 15:09
在数字化转型的浪潮中,边缘云正在全球范围内引发一场技术革命。它突破了传统集中式计算模式的局限,将数据处理和分析能力下沉至网络边缘,使 得数据在生成之际即可获得快速响应和处理。尤其是在人工智能大模型的竞争中,焦点正从训练阶段迅速转向AI推理,而边缘云凭借其显著优势,正逐 渐成为行业竞争的新焦点。 Akamai副总裁暨大中华区总经理李昇在接受《中国经营报》记者采访时表示,ChatGPT的横空出世标示着生成式AI掀起了一股新的浪潮。从训练和推理 的角度来看,推理方面的计算需求可能是训练需求的10倍,甚至更多。如今,越来越多的客户开始特别关注"后训练"阶段以及训练后的部署问题。对于 企业而言,靠近节点的边缘云能够有效提升数据交互和AI推理的即时性与效率,同时保障信息安全。 重燃边缘云赛道 AI推理需要为终端用户运行工作负载,响应速度和位置因素至关重要,这使得在边缘或边缘云环境中进行推理具备明显优势。对于企业而言,靠近节点 的边缘云能够有效提升数据交互和AI推理的即时性与效率,同时保障信息安全。 边缘云地理分布广泛,靠近用户,是低延迟体验的必要条件。它通过缩短交互链路,降低数据传输开销和成本。边缘云的节点容量大、健壮性 ...
过去四周,AI推理爆了,GPU在燃烧,英伟达依旧供不应求
硬AI· 2025-04-29 00:18
根据摩根士丹利Joseph Moore团队25日发布的报告, 这种强劲的需求主要驱动因素在于token生成量的 增长,自年初以来,token生成量增长了5倍以上 ,这给生态系统带来了巨大压力,并推动了对处理这些 工作负载的投资激增。 点击 上方 硬AI 关注我们 大摩指出,受益于大型语言模型对推理芯片的巨大需求,英伟达面临GPU供不应求局面。但在持续的供应限制、毛利率 压力等负面影响下,大摩轻微下调英伟达目标价至160美元。长期来看,公司增长轨迹依然强劲。 硬·AI 作者 | 张雅琦 编辑 | 硬 AI 过去四周,投资者情绪因宏观经济和供应链风险而恶化,但与此同时,对英伟达GPU核心的需求却因主要 大型语言模型(LLM)对推理芯片的巨大需求而飙升,且这种需求遍及所有地区。 多家AI公司报告用户数量呈爆炸式增长,例如,Open Router等API公司的数据显示,许多公司为满足推 理软件的巨量需求,被迫争抢GPU资源,甚至出现"最后一块GB200"在2025年仅剩一块的状况。 摩根士丹利认为, 这种对推理的需求是关键。 这是由使用模型并产生收入的部分驱动的,证明了推理模 型的扩展是真实存在的,这与仅依赖于风险投 ...
过去四周,AI推理爆了,GPU在燃烧,英伟达依旧供不应求
Hua Er Jie Jian Wen· 2025-04-27 10:38
Group 1 - Investor sentiment has deteriorated due to macroeconomic and supply chain risks, but demand for NVIDIA's GPUs has surged due to the significant need for inference chips driven by large language models (LLMs) [1] - Token generation has increased over five times since the beginning of the year, creating immense pressure on the ecosystem and driving a surge in investment to handle these workloads [1] - AI companies are experiencing explosive user growth, with many forced to compete for GPU resources to meet the massive demand for inference software [1] Group 2 - Morgan Stanley has lowered its target price for NVIDIA to $160 from $162, reflecting overall valuation declines in the peer group rather than changes in the company's fundamentals [2] - Despite strong demand, supply constraints for NVIDIA's Blackwell chips, particularly the GB200/300 models, are limiting the ability to meet the explosive growth in demand [2][4] - Morgan Stanley has raised its revenue forecast for fiscal year 2026 by 10.7% and adjusted earnings per share up by 11.9%, indicating that these figures may still be conservative [5]
内存压缩技术新突破,提高AI推理效率!
半导体芯闻· 2025-04-25 10:19
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:内容编译自 eetimes ,谢谢。 ZeroPoint Technologies 和 Rebellions 旨在开发一种 AI 加速器,以降低 AI 推理的成本和功耗。 据称,ZeroPoint Technologies 的内存优化技术能够快速压缩数据、增加数据中心的内存容量并提 高每瓦的 AI 推理性能。 2025年4月,瑞典内存优化知识产权(IP)供应商ZeroPoint Technologies(以下简称ZeroPoint) 宣布与Rebellions建立战略合作伙伴关系,共同开发用于AI推理的下一代内存优化AI加速器。该 公司计划在 2026 年发布一款新产品,并声称"有望实现前所未有的代币/秒/瓦特性能水平"。 作为合作的一部分,两家公司将使用 ZeroPoint 的内存压缩、压缩和内存管理技术来增加基本模 型推理工作流程的内存带宽和容量。 ZeroPoint 首席执行官 Klas Moreau 声称其基于硬件的内存 优化引擎比现有的软件压缩方法快 1,000 倍。 ZeroPoint 的内存压缩 IP 价值主张 首先,压缩和解压缩。其次,压缩生成的 ...
倒计时 6 天!致全球 GPU Kernel 极客:AMD 的 10 万美金“战书”请查收!
AI科技大本营· 2025-04-24 09:09
-I CSDN I- 2025.06.08 100.000美金 共赴硅谷巅峰之战! 注册报名二维码 致全球GPU kernel极客的一封战书: 亲爱的GPU kernel极客们, 是时候展现真正的实力了!我们诚挚邀请您参加由AMD发起并全程赞助的AMD 2025推理优化挑战赛!这是一个面向全球GPU kernel开发者的盛大赛事,AMD 倾力打造,邀您以代码为刃,挑战Al推理性能极限! 战,你能 斩获 什么? CSDN 智算极速争锋 AM D 2025 推理优化挑 2025.04.15 AMDA × FHE × 6 together we advance 破局时刻表 出名户站 2025 / 15 年日期期货 · 无需本地GPU! 云端算力平台,公平竞技,专注底层算子优化 ( low-level kernel ) 即可参赛! ● 单人亮剑或组队出征(≤3人),无国籍限制。 · 通过AMD官方验证后, 绑定GitHub ID解锁参赛权限。 ● 挑战优化三重DeepSeek算子:FP8 GEMM,MLA with Rope,Fused MoE。 ● 每两周一组,开放PyTorch参考实现及理论最大值性能等辅助开发的 ...
大模型一体机塞进这款游戏卡,价格砍掉一个数量级
量子位· 2025-04-09 08:58
金磊 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 没错,里面也可以是英特尔的 锐炫 显卡! 那这性能到底能不能跟上呢? 带着这个问题,在体验之余,我们还"抓"来了一个正在为这种一体机开发方案的软件公司进行了一番"盘问"。 这家公司叫 飞致云 ,主要是把大模型一体机用在了自家的 MaxKB 上(一款基于大语言模型的知识库问答系统)。 他们是把4张锐炫 A770显卡和2张N卡放到一起,做了一下对比测试: 对于同一个相对规模较大的任务,搭载N卡的一体机大约耗时半小时,而搭载锐炫 A770显卡的一体机则需要50分钟。 家人们,你知道近段时间大火的各种大模型 一体机 ,里面到底是什么卡吗? 相信很多小伙伴的第一反应,或许就是N卡。 但在我们接触、体验了真实的大模型一体机之后,发现了一个大写的 "万万没想到" : 但是! 买半张N卡的钱 ,就能轻松搞定4张锐炫 显卡。 由此,飞致云给出了这样一个结论: 基于锐炫 A770显卡的大模型一体机, 在性价比上真的是太香了 。 它非常适合30-50人规模的团队来使用。 一个"性价比"关键词,道破了为什么大模型一体机里面会出现英特尔游戏卡。 毕竟之前企业要私有化部署一个目 ...
AI芯片,需求如何?
半导体行业观察· 2025-04-05 02:35
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:内容编译自 nextplatform ,谢谢。 2023 年,迈克·亨利 (Mike Henry) 担任AI 推理公司 Groq 的临时首席产品官,这一职位使他与许 多数据中心管理员和经理保持密切联系。在这六个月中,他注意到不断变化的格局发生了变化,而 主导云服务提供商的领域一直是亚马逊网络服务(AWS)、微软 Azure 和谷歌云平台。 虽然这些超大规模企业继续占据人工智能领域的大量空间,但亨利看到越来越多的 GPU 云提供商涌 入市场,建立了配备数千个Nvidia 芯片的数据中心,这些芯片正在推动推理和其他人工智能工作负 载所需的计算。 "我意识到,现在大多数人工智能基础设施都是在三大传统云提供商之外构建的,"亨利告诉The Next Platform。"我生活在一个超级扩张者总是获胜的世界里,我看到了这一巨大的变化和巨大的机 遇。" Heny 和自动驾驶汽车公司 Swift Navigation 的联合创始人兼首席执行官 Tim Harris 于 2023 年底 利用这个机会创立了 Parasail。Parasail 本周凭借 1000 万美元的种子资金和 ...
【电子】英伟达GTC2025发布新一代GPU,推动全球AI基础设施建设——光大证券科技行业跟踪报告之五(刘凯/王之含)
光大证券研究· 2025-03-22 14:46
点击注册小程序 特别申明: 本订阅号中所涉及的证券研究信息由光大证券研究所编写,仅面向光大证券专业投资者客户,用作新媒体形势下研究 信息和研究观点的沟通交流。非光大证券专业投资者客户,请勿订阅、接收或使用本订阅号中的任何信息。本订阅号 难以设置访问权限,若给您造成不便,敬请谅解。光大证券研究所不会因关注、收到或阅读本订阅号推送内容而视相 关人员为光大证券的客户。 报告摘要 北京时间3月19日凌晨,英伟达举办2025年GTC大会,黄仁勋在圣何塞 SAP 中心发表的现场主题演讲,关 注代理式AI、机器人、加速计算等领域的未来发展。此外,该大会还包括1000多场具有启发性意义的会 议,以及400多项展示、技术实战培训和大量独特的交流活动。 提出Agentic AI,新的推理范式将继续推动全球数据中心建设 黄仁勋按照"Generative AI(生成式AI)、Agentic AI(智能体)、Physical AI(具身AI)"三个阶段的进 化路线,将Agentic AI描述为AI技术发展的中间态。Scaling Law的发展需要投入更多的数据、更大规模的 算力资源训练出更好的模型,训练规模越大,模型越智能,预计全球数 ...