Workflow
PNM(内存附近处理)
icon
Search documents
推理芯片的四种方案,David Patterson撰文
半导体行业观察· 2026-01-19 01:54
公众号记得加星标⭐️,第一时间看推送不会错过。 编者按 日前,由Xiaoyu Ma和David Patterson联合署名的文章《Challenges and Research Directions for Large Language Model Inference Hardware》正式发布。这篇文章被发布以后,引起了广 泛关注。文章中,作者围绕LLM推理芯片的挑战以及解决方案,给出了建议。 以下为文章正文: 大型语言模型 (LLM) 推理难度很高。底层 Transformer 模型的自回归解码阶段使得 LLM 推理与训 练有着本质区别。受近期人工智能趋势的影响,主要挑战在于内存和互连,而非计算能力。 为了应对这些挑战,我们重点介绍了四个架构研究方向:高带宽闪存,可提供 10 倍内存容量,带宽 堪比 HBM;近内存处理和 3D 内存逻辑堆叠,可实现高内存带宽;以及低延迟互连,可加速通信。 虽然我们的研究重点是数据中心人工智能,但我们也探讨了这些方案在移动设备上的应用。 引言 当一位作者于 1976 年开始其职业生涯时,计算机体系结构会议上约 40% 的论文来自业界。到 2025 年 ISCA 会议时,这一 ...