GPU的替代者,LPU是什么?
半导体行业观察·2025-08-03 03:17
公众号记得加星标⭐️,第一时间看推送不会错过。 内存架构:SRAM 作为主存储器 FP32 用于 1 位错误传播的注意逻辑 混合专家 (MoE) 权重的块浮点,其中稳健性研究表明没有可测量的退化 容错层中激活的 FP8 存储 传统加速器沿用了专为训练设计的内存层级结构:DRAM 和 HBM 作为主存储,并配备复杂的缓存 系统。DRAM 和 HBM 都会在每次权重提取时引入显著的延迟——每次访问数百纳秒。这适用于时 间局部性可预测且运算强度较高的高批量训练,但推理需要按顺序执行层,运算强度要低得多,这暴 露了 DRAM 和 HBM 带来的延迟损失。 Moonshot 的 Kimi K2 最近在GroqCloud上发布了预览版,开发人员不断问我们:Groq 如何如此快 速地运行 1 万亿参数模型? 传统硬件迫使人们做出选择:要么更快的推理速度,但质量会下降;要么更精确的推理速度,但延迟 令人无法接受。这种权衡之所以存在,是因为 GPU 架构会针对训练工作负载进行优化。而 LPU—— 专为推理而设计的硬件——在保持质量的同时,消除了造成延迟的架构瓶颈。 无需权衡的准确性:TruePoint Numerics 传统加 ...