Workflow
将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了
机器之心·2025-09-14 05:16

机器之心报道 编辑:张倩 只用 1.5% 的内存预算,性能就能超越使用完整 KV cache 的模型,这意味着大语言模型的推理成本可 以大幅降低。EvolKV 的这一突破为实际 部署中的内存优化提供了全新思路。 键值缓存(KV cache)已经成为大模型快速运行的核心技术,它就像一个「记忆库」,能够保存之前计算过的结果并重复使用,这样就不用每次都重新计算同样 的内容。 但是,这个记忆库有个问题:输入的文本越长,需要的存储空间就越大,而且模型处理长文本时会变得非常慢。 为了应对这些挑战,现有的 KV cache 压缩方法主要依赖基于规则的启发式方法。当前的方法可以归类为三种范式: 虽然这些方法在降低内存占用方面有效,但它们未能考虑两个关键问题: 仅依赖基于规则的 KV cache 预算分层分配,可能导致任务相关信息无法被最优地保留。 针对这些限制,来自中国科学院大学、中国科学院自动化研究所的 Bohan Yu 和苏黎世联邦理工学院的 Yekun Chai 受到(Chai 等,2022)的启发, 采用进化算法 直接基于任务性能搜索最优的 KV cache 分配 。 图源: https://x.com/rohanp ...