Workflow
推理
icon
Search documents
黄仁勋强调“推理AI时代才刚开始” AI基建规模 十年看10万亿美元
Jing Ji Ri Bao· 2025-05-21 23:27
Group 1 - The core viewpoint is that the AI infrastructure and factory market is in its early stages and is expected to grow from several hundred billion to over 10 trillion USD in the next decade [1] - NVIDIA's CEO Jensen Huang emphasizes the importance of advanced packaging for AI development, stating that current options are limited to CoWoS due to the stagnation of Moore's Law [1] - Huang highlights that NVIDIA is committed to driving the development of advanced packaging technologies, using their own larger chips as an example of how they utilize CoWoS for integration [1] Group 2 - NVIDIA's product planning involves annual upgrades, where improving equipment efficiency can significantly increase data center revenues while reducing costs [2] - The company advises clients to adopt a gradual purchasing strategy to avoid over-investment in outdated technology, ensuring continuous cost reduction [2] - Huang mentions the need for greater manufacturing resilience and diversification globally, with some production remaining in the U.S. while maintaining national security [2]
AI推理加速演进:云计算的变迁抉择
Core Insights - The trend in AI development is shifting from training to inference, with a significant increase in demand for small models tailored for specific applications, which is impacting the cloud computing market [1][2][3] Group 1: AI Inference Market - The market for AI inference is expected to exceed the training market by more than ten times in the future, as companies recognize the potential of deploying small models for vertical applications [1] - Akamai's AI inference services have demonstrated a threefold increase in throughput and a 60% reduction in latency, highlighting the efficiency of their solutions [2] Group 2: Edge Computing and Deployment - Edge-native applications are becoming a crucial growth point in cloud computing, with Akamai's distributed architecture covering over 4,200 edge nodes globally, providing end-to-end latency as low as 10 milliseconds [3] - The proximity of inference to end-users enhances user experience and efficiency, addressing concerns such as data sovereignty and privacy protection [3] Group 3: Industry Trends and Client Needs - Many companies are now focusing on optimizing inference capabilities, as previous investments were primarily in model training, leading to a gap in readiness for inference [2] - There is a growing trend among Chinese enterprises to integrate AI inference capabilities into their international operations, particularly in sectors like business travel [5]
黄仁勋直言:对华的芯片出口政策失败
半导体芯闻· 2025-05-21 10:29
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:内容编译自businesskorea ,谢谢 。 英伟达首席执行官黄仁勋将美国政府限制对华半导体出口的政策称为"失败"。但他对美国总统唐纳 德·特朗普近期关于废除该政策并制定新规则的言论表示欢迎,并强调美国是时候重夺人工智能半 导体领域的领导地位了,该领域今年的规模预计将增长至500亿美元(约70万亿韩元)。他强调, 美国公共和私营部门必须全力冲刺,才能在中国重新夺回压倒性市场份额,因为中国集中了全球 50%的人工智能研究人员。 5月21日,黄仁勋在亚洲最大资讯科技展Computex 2025台北国际电脑展举办地台北一家酒店举行 媒体见面会,介绍公司的AI技术及未来营运策略。 他明确指出,美国政府限制对华半导体出口的措施是误判。"总而言之,出口管制是失败的,"黄仁 勋说道,并补充道,"事实证明,最初制定人工智能扩散规则的那些基本假设存在根本性缺陷。" 黄仁勋指出,"由于禁止向中国出口H20产品,NVIDIA已经遭受了数十亿美元的损失",并补充 道,"这比许多半导体公司的销售额还要大。" 上个月,特朗普总统甚至限制了NVIDIA为规避对华半导体出口管制而降低性能开 ...
纯靠“脑补”图像,大模型推理准确率狂飙80%丨剑桥谷歌新研究
量子位· 2025-05-21 04:01
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 不再依赖语言,仅凭 图像 就能完成模型推理? 大模型又双叒叕迎来新SOTA! 当你和大模型一起玩超级玛丽时,复杂环境下你会根据画面在脑海里自动规划步骤,但LLMs还需要先转成文字攻略一格格按照指令移动,效 率又低、信息也可能会丢失,那难道就没有一个可以跳过 "语言中介" 的方法吗? 目前相关代码已开源,可点击文末链接获取。 以下是有关VPRL的更多细节。 VPRL更准确、更有效 于是来自剑桥、伦敦大学学院和谷歌的研究团队推出了 首次 纯粹依靠图像进行推理的新范式—— 基于强化学习的视觉规划 (VPRL) 。 新框架利用 GRPO 对大型视觉模型进行后训练,在多个代表性视觉导航任务中的性能表现都远超基于文本的推理方法。 准确率高达80%,性能超文本推理至少40%,首次验证了 视觉规划显著优于文本规划 ,为直觉式图像推理任务开辟了新方向。 现有的视觉推理基准都是将视觉信息映射到文本领域进行处理,整个推理过程都由语言模型完成。 纯视觉规划则是让模型 直接利用图像序列 ,没有中间商"赚差价",推理效率直线UP。 由此团队直接引入一个基于强化学习的视觉规划训练框架V ...
英特尔新显卡拉爆性价比,可本地跑DeepSeek-R1
Guan Cha Zhe Wang· 2025-05-20 15:03
Core Viewpoint - Intel has launched two new graphics cards, the Arc Pro B50 and Arc Pro B60, at competitive price points, aiming to enhance its position in the GPU market, particularly for AI and graphics workloads [1][3][7]. Product Launch - The Arc Pro B50 is priced at $299 (approximately 2156 RMB) and features 16GB of memory, while the Arc Pro B60 is priced at $500 (approximately 3605 RMB) with 24GB of memory [1][3]. - The B50 is designed for graphics workstations, boasting 16 Xe cores and 128 XMX engines, with a peak performance of 170 TOPS and a memory bandwidth of 224GB/s [3]. - The B60 targets AI inference workstations, equipped with 20 Xe cores and 160 XMX engines, achieving a peak performance of 197 TOPS and a memory bandwidth of 456GB/s [7]. Performance Comparison - The Arc Pro B50 claims up to a 3.4 times performance improvement over the previous generation A50 and outperforms NVIDIA's RTX A1000 8GB in various AI inference benchmarks [3]. - The B60 is reported to handle larger AI models with up to 2.7 times execution efficiency improvement compared to NVIDIA's RTX Ada 2000 16GB and RTX 5060Ti 16GB [7]. Workstation Initiative - Intel introduced "Project Battlematrix," which integrates the Arc Pro B60 into a unified workstation solution, featuring Intel Xeon processors and supporting up to 8 GPUs with a total of 192GB memory [10]. - The overall price for this workstation solution ranges from $5000 to $10000 (approximately 36000 to 72000 RMB) [10]. Market Strategy - Intel's Vice President Vivian Lien emphasized the commitment to GPU technology and partnerships, highlighting the accessibility and scalability of the new Arc Pro GPUs for small and medium enterprises [13]. - The new graphics cards are expected to be available to customers in the third quarter of the year, with additional support for hardware sharing and cloud desktop functionalities planned for the fourth quarter [13]. Financial Context - Intel's Q1 2025 financial report indicated stable revenue of $12.7 billion (approximately 91.6 billion RMB) but a net loss of $800 million (approximately 5.7 billion RMB), which is a 115% increase in losses compared to the previous year [14]. - The company has a weak outlook for Q2, projecting revenue between $11.2 billion and $12.4 billion (approximately 80.8 billion to 89.5 billion RMB) [14].
AI巨头新品亮相Computex 2025 争霸生态整合与AI推理市场
Computex 2025(台北国际电脑展)是亚洲最大的电子科技展会之一,日前,英伟达、英特尔等在展会 上纷纷发布新品,将AI推理作为重点布局方向,并将生态整合放在突出位置。 拓展生态兼容 黄仁勋强调,失去中国市场意味着美国公司损失了90%的全球市场,而不是一半。由于被禁售H20,英 伟达已经计提了55亿美元库存减值损失,还因此放弃了150亿美元的销售额,而中国每年潜在市场达到 500亿美元,几乎是波音整个公司,并且放弃中国市场还会威胁到CUDE生态。他认为美国应该"全力以 赴"让英伟达回到中国市场,让美国公司有机会在中国市场竞争。 日前,英伟达传出计划在上海建研究中心,将聚焦中国客户定制化需求。 加码AI推理 围绕推理市场,英伟达也在持续加码。本次公司不仅推出了应用于AI推理的GB300 NVL72 AI服务器, 服务性能提升了50%,将在2025 年第三季度量产上市;针对企业级AI推理市场,英伟达还推出了RTX PRO服务器,最多可配置8张Blackwell RTX Pro Graphics 6000卡以及英伟达网络技术,完全兼容AI企业 软件平台,个人工作站 DGX Spark也将从7月起发售。 英伟达 ...
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
机器之心· 2025-05-20 04:58
「三个点电荷 + Q、-2Q 和 + 3Q 等距放置,哪个向量最能描述作用在 + Q 电荷上的净电力方向?」 在解这道题时,我们可以通过绘制受力分析草图轻松解决。但即使是先进的多模态大语言模型,如 GPT-4o,也可能在理解「同性相斥」的基本物理原则时,错误 地判断斥力的方向(例如,错误地将 + 3Q 对 + Q 的斥力方向判断为右下方而非正确的左上方)。 这个看似简单的物理问题,却暴露了多模态大模型一个「致命缺陷」: 当前的 MLLMs 仍然无法进行需要深度视觉与文本融合的复杂多模态推理 !一项最新研究 推出的 EMMA 基准测试,如同一面「照妖镜」,揭示了即使是顶尖 MLLMs 也在这关键能力上显著不足。 目前该研究已被 ICML 2025 接收为 spotlight,代码数据已全部开源 ! 目前已有多个模型 / 方法在 EMMA 上验证其多模态推理能力,研究发现: 即使最先进的模型 ——Gemini-2.5-pro-exp-03-25 ,或者是能够进行视觉工具调用的 o3/o4-mini 模型在 EMMA 上的表现仍然落后人类专家超 20% ! 标题: Can MLLMs Reason in Multi ...
再战英伟达!英特尔发布全新AI推理GPU芯片,陈立武:想重回巅峰就需“说真话”
Tai Mei Ti A P P· 2025-05-20 04:39
英特尔CEO陈立武(Lip-Bu Tan) 5月20日消息,2025年台北国际电脑展(COMPUTEX)正在举行。 虽然英特尔今年没有在Computex 2025上发表主题演讲,但5月19日,英特尔发布了全新针对专业人士和 开发者设计的全新图形处理器(GPU)和AI加速芯片产品系列。同时,英特尔CEO陈立武(Lip-Bu Tan)也在台北英特尔晚宴中发表演讲。 陈立武在19日晚表示,芯片产业正在改变,除了晶体管外,还需要建立完整的系统,并配合软件、网络 和储存技术,需要大量投资在互联技术上,英特尔也正大力转向光学技术,同时为实现SoC芯片整合与 高速效能,与存储芯片间的合作也至关重要。 陈立武补充称,英特尔有些产品竞争力不足,现正做出改变来补足缺点,尽管有这些挑战,但公司在 PC和客户端市场的市占率仍拥有约68%,数据中心CPU领域市占率也仍有55%,将利用现有基础推动 更好的产品和服务。 针对如何让英特尔重回巅峰,陈立武强调,重点就是"说实话",他说,他正努力推动这种文化,有时层 级太多,消息传达会失真,所以他有个习惯,是直接深入七、八层底下的工程师,听取真实意见。而 且,陈立武称他已经重新调整工程团队,让 ...
ICML 2025|如何凭「自动补全」实现100K生成3×加速?
机器之心· 2025-05-18 04:25
在当前大模型推理愈发复杂的时代,如何快速、高效地产生超长文本,成为了模型部署与优化中的一大核心挑战。随着 GPT-o3, DeepSeek R1 等具备 「超级上下文 窗口 」 能力的大模型持续刷新业界记录,百万甚至千万 Token 级别的推理任务已从研究话题迈入现实场景。然而,生成这些超长文本的背后,却隐藏着令人咋舌 的计算成本 —— 长时间的等待、巨大的内存负担以及偶尔重复乏味的输出,严重制约了这些模型的真正潜力。 面对这一挑战,BIGAI NLCo 团队提出了一项全新的推理加速框架 —— TokenSwift ,该工作已成功被 ICML 2025 正式接收!在这项研究中提出了一套可插拔、无 损、高效的生成加速策略,专为 100K Token 级别的长文本推理而设计。在保持原始模型输出一致性的前提下, 加速比达到 3 倍以上 ,极大提升了推理效率。 重新定义超长生成:为什么传统方法 「慢 」? 为了更好地理解 TokenSwift 的意义,我们先看一下目前主流大模型(如 LLaMA、Qwen 等)在长文本生成中的瓶颈所在。 尽管这些模型具备了强大的生成长上下文的能力,但大多数依然采用传统的自回归 (Aut ...
ICML 2025 | 大模型深度思考新范式:交替「推理-擦除」解决所有可计算问题
机器之心· 2025-05-15 06:04
作者介绍:本文第一作者是丰田工业大学芝加哥 PhD 学生杨晨晓,研究兴趣是机器学习理论和大模型推理,在 ICML,NeurIPS,ICLR 等顶级会议上发表过论 文。 本文提出一个 交替 「推理 - 擦除 」的深度思考新范式 PENCIL ,比传统 CoT 更高效地解决更复杂的推理任务。理论上,我们证明 PENCIL 可用 最优空间 与 最 优时间 下解决所有可计算问题,而这对于传统的 CoT 是不可能的!该工作已被机器学习顶会 ICML 2025 收录。 最近的大模型(如 OpenAI 的 o1/o3、DeepSeek 的 R1)发现能通过在测试阶段 深度思考(Test-Time Scaling) 来大幅提高模型的推理能力。目前实现深度思考的 关键在于使用 长链思维链(Long Chain-of-Thought,CoT) ,即让模型生成更长中间结果得到最终答案。然而,传统 「只写不擦 」的方法在处理高难度、大规 模任务时面临以下瓶颈: 不过实际上,并非所有中间思路都后续推理有用:例如定理证明里,引理一旦验证通过,其具体推导可被丢弃;解数学题时,已知某条思路走不通就无需保留那 段 「尝试 」的细节。纵观计算机 ...