大模型Attention机制 - filings, earnings calls, financial reports, news - Reportify

大模型Attention机制

Search documents

未知机构：申万计算机国产算力思考260322第四期从GTC的架构之变看云厂对算力-20260323

未知机构· 2026-03-23 02:05

【申万计算机】国产算力思考260322第四期：从GTC 的架构之变，看云厂对算力的需求变化？可以认为是一种算力端的解耦，让每部分去承担最适合自己的职能。 #GTC最大变化：引入LPU？为了Agentic LLM推理。 LPU是完全确定性编译，用编译器安排好硬件，使用静态存储SRAM保障数据读取的确定性，提供了极低延迟，能够满足Agentic LLM推理的需求。然而，LPU并非全能，因此英伟【申万计算机】国产算力思考260322第四期：从GTC 的架构之变，看云厂对算力的需求变化？ #GTC最大变化：引入LPU？为了Agentic LLM推理。 LPU是完全确定性编译，用编译器安排好硬件，使用静态存储SRAM保障数据读取的确定性，提供了极低延迟，能够满足Agentic LLM推理的需求。然而，LPU并非全能，因此英伟达采用了A-F-D分离（Attention-FFN-Decode分离），给LPU安排了Decode阶段的 FFN计算（MoE计算）职责，prefill和Decode的Attention计算仍然用GPU。并且，电胜于算，算力端会全面普及液冷技术。会，最大客户仍然是云厂，Claude ...

Nvidia(US:NVDA)

Agentic LLM推理

PUE（能效比）

大模型Attention机制

Agentic LLM推理

PUE（能效比）

大模型Attention机制