Workflow
电子掘金-DeepSeek如何影响推理需求
SKLTYSeek .(SKLTY)2025-03-03 03:15

DeepSeek V3 和 R1 延续了 V2 版本中使用的 MOE 多头自注意力机制,通过压缩 KV 存储来降低存储需求。具体操作方法是不对所有的 key 和 value 进行存储, 而是存储一个压缩后的低维变量 C,并将其投影到投影空间。在计算过程中恢 复出 key value 得出原始值,从而大幅降低了存储需求。这种方式将解码过程 中的访存密集型任务转换为计算密集型任务,实现了省存储且无多余训练开销 • DeepSeek V3 和 R1 通过压缩 Key Value 存储,将访存密集型任务转化为计 算密集型任务,降低存储需求且无需额外训练开销。原生稀疏注意力机制 (NIC)优化硬件资源占用,与 MOE 架构形成互补,分别关注局部细节和全 局建模。 • DeepSeek V3 和 R1 在硬件工程化上分离预填充(pre-fill)与解码 (decode)阶段,并采用冗余专家及动态冗余策略优化硬件使用,提高推 理效率和准确性,平衡 GPU 负载。 • DeepSeek V3 和 R1 采用大规模跨节点专家并行方法,降低对单一节点硬件 要求,提高整体吞吐量并降低延时,但增加了网络通信及显存带宽压力, 需要大量 ...