Workflow
Cerebras
icon
Search documents
英伟达(NVDA.US)据悉开发AI推理芯片 OpenAI或成最大客户
智通财经网· 2026-02-28 09:05
据媒体援引消息人士报道,芯片巨头英伟达(NVDA.US)计划发布一款全新处理器,专门为人工智能 (AI)研究公司OpenAI及其他客户打造,以帮助他们构建更快速、更高效的工具。 知情人士透露,英伟达正在设计一套新的推理计算系统。这一新平台预计将在下个月于圣何塞举行的英 伟达GTC开发者大会上发布,并将整合由初创公司Groq设计的芯片。 推理计算是一种让AI模型能够对用户提问作出响应的处理方式,该领域已成为行业激烈竞争的焦点。 谷歌和亚马逊等公司已经设计出与英伟达旗舰系统相竞争的芯片。 而科技行业中自动化编程的迅猛发展,也催生了对新型芯片的需求,这些芯片需要更高效地处理复杂的 AI相关任务。 知情人士表示,OpenAI已同意成为这款新处理器的最大客户之一,这对英伟达而言是一项重大胜利。 英伟达Hopper、Blackwell和Rubin系列GPU被认为是训练超大型AI模型的行业标杆产品,价格也处于高 位。 然而,自AI热潮兴起以来,英伟达首次面临其旗舰产品的局限性。随着市场重心从训练转向推理,一 些客户开始向英伟达施压,要求其推出更高效驱动AI应用的芯片。 过去一年,随着企业部署AI代理及其他工具,先进算力的需 ...
英伟达计划推出全新芯片 OpenAI是大客户
Xin Lang Cai Jing· 2026-02-28 03:13
英伟达计划发布一款专为OpenAI及其他客户定制的全新处理器,助力打造更快、更高效的工具。这是 其业务的重大调整,或将重新定义AI竞赛格局。 据知情人士透露,该公司正在为AI推理计算设计全新系统——这类计算负责让AI模型响应用户请求。 这款新平台将于下月在圣何塞举办的英伟达GTC开发者大会上正式公布,将整合初创公司Groq设计的 芯片。 推理计算已成为行业激烈竞争的焦点。竞争对手谷歌和亚马逊均已推出芯片,与英伟达旗舰产品抗衡。 同时,科技行业自主编码技术的爆发式增长,催生了对能更高效处理复杂AI任务的新型芯片的需求。 部分知情人士称,OpenAI已同意成为这款新处理器的最大客户之一,对英伟达而言是重大胜利。这家 ChatGPT开发者本就是英伟达的核心客户,过去数月一直在寻找英伟达芯片的更高效替代方案,并于上 月与一家芯片初创公司签约,新增了供应选择。 Groq所设计的芯片采用与英伟达截然不同的架构,名为语言处理单元,在推理功能上效率极高。不过 截至目前,英伟达对如何运用Groq技术仍三缄其口。 AI推理计算主要分为两大环节: - 预填充:模型理解用户提示词的过程 上周五早些时候,OpenAI在宣布将向英伟达大 ...
广发证券:SRAM提升AI推理速度 相关架构进入主流大厂视野
Zhi Tong Cai Jing· 2026-02-27 07:35
广发证券发布研报称,在大模型应用中,相比依赖外置HBM,SRAM可显著降低权重与激活数据的访 延迟与抖动,从而改善Time-to-First-Token与尾时延表现。目前,Groq与Cerebras都相继推出基于 SRAMAI芯片。SRAM架构进入主流视野,根据Groq官网以及市场媒体报道,英伟达此前斥资200亿美 元获得Groq的知识产权的非独家授权;OpenAI与Cerebras签署100亿美元合同,部署多达750兆瓦的定制 AI芯片。 广发证券主要观点如下: SRAM是片上高带宽存储层 存储分级为SRAM、HBM、DRAM和SSD,其中SRAM(静态随机存取存储器)集成在CPU、GPU计算核 心附近的片上存储,具备纳秒级访问时延与高度确定性的带宽特性,带宽高但容量小、成本高。 SRAM可提升AI推理速度 根据Cerebras官网,其晶圆级引擎3(WSE-3)芯片集成44GB SRAM,片上存储带宽达21PB/s,在OpenAI GPTOSS120B推理任务中实现>3000tokens/s的输出速度,较主流GPU云推理快约15×。此外,2026年2 月,OpenAI推出首个运行在Cerebras Syst ...
补齐AI推理拼图:英伟达黄仁勋揭秘Groq LPU整合路线图
Sou Hu Cai Jing· 2026-02-27 03:45
英伟达凭借 Hopper 和 Blackwell 架构绝对主导了 AI 模型训练市场,并通过 Rubin CPX 架构的注意力加速引擎,覆盖了推理的"预填充"(Prefill)阶段,但 在对延迟极度敏感的"解码"(Decode)环节,公司亟需引入 Groq 的技术来确立行业标杆。 战略布局方面,黄仁勋强调 Groq 将补齐 AI 推理阶段的短板,实现超低延迟的解码能力。AI 行业目前正加速迈向多智能体协同(Agentic AI)时代,应用层 要求极低的延迟和超快的响应速度。 IT之家 2 月 27 日消息,科技媒体 Wccftech 昨日(2 月 26 日)发布博文,报道称在 2026 财年第 4 财季(截至 2026 年 1 月)财报会议上,英伟达 CEO 黄仁 勋透露了收购 Groq 后的核心整合计划。 技术实现方面,英伟达希望全面释放 Groq 的硬件潜力。Groq 的语言处理单元(LPU)采用片上 SRAM(静态随机存取存储器),能够提供每秒数十 TB 的 内部超高带宽。 重要性方面,黄仁勋将此次价值 200 亿美元(IT之家注:现汇率约合 1370.47 亿元人民币)的非授权收购,和当年收购 Mel ...
AI的Memory时刻7:SRAM提升AI推理速度
GF SECURITIES· 2026-02-26 07:02
Investment Rating - The report provides a "Buy" rating for the industry, indicating an expectation of stock performance exceeding the market by more than 10% over the next 12 months [45]. Core Insights - SRAM (Static Random Access Memory) is identified as a high-bandwidth on-chip storage layer that can significantly enhance AI inference speed by reducing latency and jitter compared to external HBM (High Bandwidth Memory) [3][11]. - The architecture of SRAM is gaining mainstream attention, with significant investments and partnerships, such as Nvidia's $20 billion acquisition of Groq's intellectual property and OpenAI's $10 billion contract with Cerebras [3][32]. - The report emphasizes the growing importance of AI memory-related upstream infrastructure, suggesting that investors should focus on key beneficiaries within the industry chain [3][39]. Summary by Sections SRAM as a High-Bandwidth Storage Layer - SRAM is positioned as an essential component in the multi-tier storage architecture, providing high bandwidth but with limited capacity and higher costs [3][11]. SRAM Enhancing AI Inference Speed - SRAM can improve AI inference speed, with examples such as Groq's LPU chip achieving a bandwidth of 80 TB/s and maintaining stable inference speeds of 275-276 tokens/s, outperforming other platforms [3][15][21]. - Cerebras' WSE-3 chip integrates 44GB of SRAM, achieving over 3000 tokens/s in inference tasks, significantly faster than mainstream GPU cloud inference [3][23][39]. SRAM Architecture Gaining Mainstream Attention - The report notes that major companies are investing in SRAM technology, highlighting Groq's partnership with Nvidia and Cerebras' funding round that values the company at $23 billion [3][32][39]. Investment Recommendations - The report suggests that the ongoing expansion of AI memory capabilities will enhance model performance and accelerate the deployment of AI applications, recommending a focus on core beneficiaries in the industry chain [3][39].
AI芯片商Cerebras秘密提交IPO 最快或于4月上市
Jin Rong Jie· 2026-02-25 05:16
Cerebras成立于2015年,总部位于美国加利福尼亚州桑尼维尔。该公司去年发布的WSE-3芯片及CS-3系 统,打破了AI推理与训练领域的基准性能记录。目前其服务客户涵盖Meta Platforms、阿斯利康等行业 头部企业。 市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。 AI芯片制造商Cerebras已秘密提交首次公开募股申请。据知情人士消息,该公司正与潜在投资者进行会 面,最快或于4月完成上市,此前披露的IPO目标时间为2026年第二季度。 本文源自:市场资讯 上月,Cerebras与OpenAI达成数十亿美元的多年合作协议,将为其提供750兆瓦的计算能力支撑。同 时,Cerebras正洽谈筹集10亿美元资金,完成后公司估值将升至220亿美元。 作者:观察君 此次IPO推进并非一帆风顺。Cerebras最初于2024年9月提交上市申请,因美国联邦政府审查其与阿布扎 比AI公司G42的合作关系而停滞。2025年10月,Cerebras在完成11亿美元融资、估值升至81亿美元后, 撤回了IPO计划。今年初,美国外国投资委员会完成相关审查,Cerebras于3月宣布相 ...
传AI芯片制造商Cerebras已秘密提交IPO申请 估值或达220亿美元
智通财经网· 2026-02-25 02:42
Cerebras成立于2015年,总部位于加利福尼亚州桑尼维尔。该公司报告称,其WSE-3芯片和CS-3系统在 去年发布时打破了AI推理和训练的基准记录。其当前客户包括Meta Platforms(META.US)和阿斯利康 (AZN.US)等公司。 上月,Cerebras与OpenAI签署了一项价值数十亿美元的多年协议,为其提供750兆瓦的计算能力。据报 道,Cerebras还在洽谈筹集10亿美元资金,这将使公司估值达到220亿美元。 2025年10月,Cerebras在完成一轮11亿美元的融资(将其估值推高至81亿美元)后不久,撤回了进行首次 公开募股的计划。Cerebras最初于2024年9月申请公开上市,但因联邦政府对其与阿布扎比AI公司G42关 系的审查而陷入停滞。美国外国投资委员会于今年早些时候完成了审查,Cerebras在3月宣布悬而未决 的问题已得到解决。 智通财经APP获悉,据报道,与英伟达(NVDA.US)和AMD(AMD.US)竞争的人工智能(AI)芯片制造商 Cerebras已秘密提交首次公开募股(IPO)申请。该报道援引知情人士消息称,该公司一直在与潜在投资者 会面,最早可能于4月上 ...
未知机构:白宫在2025年1月宣布了星门数据中心项目-20260224
未知机构· 2026-02-24 04:20
白宫在 2025 年 1 月宣布了 "星门"数据中心项目,负责开发的三家公司承诺以闪电般的速度推进,几乎立即投 入 100 亿美元,开始建设 10 吉瓦的计算能力。 一年多过去了,根据三位参与该搁置计划的人士透露,"星门"之门陷入困境。 "星门"的三位成员 ——AI 模型开发商 OpenAI、云服务提供商甲骨文和日本企业集团软银 —— 在谁负责什么以及 合作结构如何 白宫在 2025 年 1 月宣布了 "星门"数据中心项目,负责开发的三家公司承诺以闪电般的速度推进,几乎立即投 入 100 亿美元,开始建设 10 吉瓦的计算能力。 一年多过去了,根据三位参与该搁置计划的人士透露,"星门"之门陷入困境。 "星门"的三位成员 ——AI 模型开发商 OpenAI、云服务提供商甲骨文和日本企业集团软银 —— 在谁负责什么以及 合作结构如何安排上存在分歧。 OpenAI 与软银在如何共同开发数据中心方面存在分歧。 OpenAI 近期不计划建设自有第一方数据中心。 OpenAI 未能实现到 2025 年底通过甲骨文和软银签约约 10 吉瓦容量的目标。 OpenAI 急需算力,一度开始准备自行开发大部分扩建项目,雄心勃勃地计 ...
24人团队硬刚英伟达,AMD前高管梦之队出手,新芯片每秒17000个token
3 6 Ke· 2026-02-21 05:47
Core Insights - Taalas, a startup founded two years ago with a team of 24, has launched a new chip, HC1, which achieves a peak inference speed of 17,000 tokens per second, significantly outperforming competitors like Cerebras at 2,000 tokens per second [1][3][5] - The HC1 chip reduces costs by 20 times and power consumption by 10 times compared to existing solutions, enabling real-time response speeds for large language models (LLMs) [1][3] - Taalas's innovative approach involves embedding the model directly onto the silicon chip, which allows for a drastic increase in performance and efficiency [3][6] Company Overview - Taalas was founded by a team of former AMD executives, including Ljubiša Bajić, who has a strong background in high-performance GPU design [11][13] - The company focuses on developing a new architecture specifically for AI inference and training, emphasizing layered design and lattice networks [11][13] Technology and Performance - The HC1 chip utilizes TSMC's N6 process technology, with a compact size of 815mm² and a typical power consumption of 250W per chip [5][6] - By adopting a structured ASIC design philosophy, HC1 can quickly produce specialized AI inference chips at a lower cost, reducing the production cycle from six months to two months [6][8] - The chip's architecture allows for the storage of models and weights directly on the chip, enhancing speed and efficiency while maintaining some flexibility for model updates [8][10] Market Position and Future Plans - Taalas has raised $200 million in funding and plans to release a second-generation variant of HC1 in the spring, which will integrate a medium-sized inference model [13] - The company aims to deploy HC2 in the winter, which will feature higher density and faster operation [13] - Despite the impressive speed of HC1, there are concerns regarding its depth of inference and potential obsolescence due to rapid model iteration cycles [15][17]
X @TechCrunch
TechCrunch· 2026-02-20 12:00
UAE’s G42 teams up with Cerebras to deploy 8 exaflops of compute in India https://t.co/Y8tvB5H6Z2 ...