Workflow
KV cache
icon
Search documents
不止于量化:最新综述用「时-空-构」三维视角解构KV Cache系统级优化
机器之心· 2026-01-16 08:13
随着 LLM 向 1M 上下文演进, KV cache(键值缓存) 已成为制约推理服务效率的核心瓶颈。自回归生成的特性使得模型必须存储历史 token 的 key-value 状态 (即 KV cache)以避免重复计算,但 KV cache 的显存占用随着上下文长度的增长而膨胀,带来显著的内存瓶颈。 过去两年,关于 KV cache 的优化工作爆炸式增长,包括调度、迁移、压缩等策略层出不穷。然而,现有综述主要聚焦于 LLM 推理或服务的整体效率,大多仅将 KV cache 作为其中一个子模块作简要讨论。 近期,来自 墨尔本大学和华中科技大学的研究者们 发布了一篇深度综述,从 MLSys 的思维 出发,用一套新颖的 「时间 - 空间 - 结构」系统行为视角 对 KV cache 优化方法进行了系统性梳理与深入分析,并将相关资源整理成了 持续维护的 Awesome 资源库, 方便研究者与从业人员快速定位与落地。 什么是「 sKis」? 为了提供更聚焦的视角和理解,作者们首先在综述中定义了 sKis 的边界:在推理服务阶段,以 KV cache 为核心优化对象,在不依赖模型重训或结构修改的前提 下,提升吞吐、延迟 ...