未知机构:产业视角推理对高带宽内存的依赖一个未被充分认识到的事情是相比-20250303
2025-03-03 02:15
– 尽管模型中只有约 370 亿个参数处于活跃状态,但整个模型(包括门控函数及权重)都必须常驻内存,且还需 要为生成"思考链"保留额外缓存。 产业视角:推理对高带宽内存的依赖 一个未被充分认识到的事情是:相比推理是否需要更多算力, 产业更关注推理对于高带宽内存的依赖. ———————————————- 产业的看法, 总结下来大体如下: – 以 DeepSeek-R1 为例,整个模型运行需要 671 GB 的 HBM,其中每十亿个参数大致需要 1 GB 的内存。 产业视角:推理对高带宽内存的依赖 一个未被充分认识到的事情是:相比推理是否需要更多算力, 产业更关注推理对于高带宽内存的依赖. ———————————————- 产业的看法, 总结下来大体如下: – 以 DeepSeek-R1 为例,整个模型运行需要 671 GB 的 HBM,其中每十亿个参数大致需要 1 GB 的内存。 – 在推理过程中, 芯片内的内存带宽至关重要,因为所有数据的读写都集中在单个芯片上进行。 – 预训练阶段vs.测试时推理阶段: 预训练更侧重于大量数据和模型参数在多个芯片之间的传输,因此更加依赖数 据中心内部或跨数据中心的全互连通信带 ...