Workflow
1200行代码逆袭!DeepSeek工程师开源轻量级vLLM,吞吐量逼近原版
机器之心·2025-06-13 04:31

机器之心报道 机器之心编辑部 开源社区的人应该对 vLLM 不陌生,它是一个由加州大学伯克利分校团队开发的高性能、开源 LLM 推理和服务引擎,核心目标是提升 LLM 的推理速度(吞吐 量)和资源利用率(尤其是内存),同时兼容 Hugging Face 等流行模型库。 简单来说,vLLM 能让 GPT、Mistral、LLaMA 等主流模型系列跑得更快、消耗更少资源,取得这些效果的关键是其创新的注意力机制实现方案 —— PagedAttention。 近日,DeepSeek AI 研究者、深度学习系统工程师俞星凯 从零开始构建了一个轻量级 vLLM 实现 ——Nano-vLLM,将代码简化到了 1200 行 。 | Inference Engine | Output Tokens | Time (s) | Throughput (tokens/s) | | --- | --- | --- | --- | | vLLM | 133,966 | 98.95 | 1353.86 | | Nano-vLLM | 133,966 | 101.90 | 1314.65 | 作者简介 GitHub 地址:https://g ...