Workflow
大模型Attention机制
icon
Search documents
未知机构:申万计算机国产算力思考260322第四期从GTC的架构之变看云厂对算力-20260323
未知机构· 2026-03-23 02:05
【申万计算机】国产算力思考260322第四期:从GTC 的架构之变,看云厂对算力的需求变化? 可以认为是一种算力端的解耦,让每部分去承担最适合自己的职能。 #GTC最大变化:引入LPU? 为了Agentic LLM推理。 LPU是完全确定性编译,用编译器安排好硬件,使用静态存储SRAM保障数据读取的确定性,提供了极低延迟,能 够满足Agentic LLM推理的需求。 然而,LPU并非全能,因此英伟 【申万计算机】国产算力思考260322第四期:从GTC 的架构之变,看云厂对算力的需求变化? #GTC最大变化:引入LPU? 为了Agentic LLM推理。 LPU是完全确定性编译,用编译器安排好硬件,使用静态存储SRAM保障数据读取的确定性,提供了极低延迟,能 够满足Agentic LLM推理的需求。 然而,LPU并非全能,因此英伟达采用了A-F-D分离(Attention-FFN-Decode分离),给LPU安排了Decode阶段的 FFN计算(MoE计算)职责,prefill和Decode的Attention计算仍然用GPU。 并且,电胜于算,算力端会全面普及液冷技术。 会,最大客户仍然是云厂,Claude ...