Workflow
为什么 DeepSeek 大规模部署很便宜,本地很贵
AI前线·2025-07-04 06:10

作者 | Sean Goedecke 译者 | 王强 策划 | Tina 什么是批处理推理? GPU 擅长执行大型矩阵乘法(GEMMs,或"通用矩阵乘法")。假设你有一个 token,你想通过模型 传递(即通过乘以其所有权重,其他架构细节不谈)。你将其表示为一个与模型维度(或隐藏大小) 相匹配的向量(即 1x 其大权重矩阵的宽度),然后将其乘过去。那就是 1 个 GEMM。但如果你想 一次通过一批十个 token,也仍然只是一个 GEMM,因为你可以将 token 堆叠成一个矩阵(10x 模 型维度)。这比执行十个稍小的 GEMM 要快得多。因此,推理服务器的实现可能看起来是这样的: 请注意,服务器会决定拉取多大的批次大小。这是吞吐量和延迟之间的权衡。如果你不进行批处理, 只是逐个处理 token,那么没有用户会在队列中等待(上述步骤 3),所以延迟很低(假设你有足够 的 GPU)。然而,如果你进行大量批处理,延迟会很高,因为用户将等待到批次大小填满,但吞吐 量会高得多,因为 GPU 的使用效率更高。 1. 一个请求带着提示词进来 2. 该提示被预填充(通过注意力传递,我们稍后将看到如何将它也做批处理),形成 ...