Workflow
KV Cache
icon
Search documents
榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒
量子位· 2025-08-26 05:46
Nvidia开源的Dynamo项目,实现存储系统多级缓存算法,热数据在显存、温数据在主机内存、冷数据在 SSD 或远端对象存储,并通过一套 统一的索引 + 异步流水线实现自动迁移与透明访问,但是多级存储之间的数据迁移流程复杂,延迟开销难以压缩。 微软推出的LMCahce存储系统,高度兼容vLLM等推理框架,但是对分布式存储支持较低,空间上限低。 阿里巴巴提出一种将KV Cache空间扩展到Tair数据库的远端存储方案,存储空间易扩展,但是读写性能难以满足LLM推理业务的低延迟需 求。 CXL(Compute Express Link) 作为一种新兴的高速互联技术,以其高带宽、低延迟和硬件级缓存一致性的特性,为破解内存瓶颈带来了 新的希望,可以解决AI和高性能计算中遇到的内存瓶颈问题。 业界关于CXL存储加速LLM推理的研究仍然较少,探索如何利用CXL等新型介质扩展KV Cache空间,进而将成熟的软件栈迁移到CXL硬件场 景,是一项非常有意义的工作。 当大语言模型(LLM)走向千行百业,推理效率与显存成本的矛盾日益尖锐。 KV Cache (Key-Value Cache)作为提升生成速度的核心技术,却像一个 ...
华为AI推理新技术犀利!中国银联大模型效率提高了125倍
8月12日,华为发布了AI推理创新技术UCM(推理记忆数据管理器,Unified Cache Manager)。 那么为什么要推出UCM?因为推理过程中仍存在不少痛点。 简单来说,这是专门面向大模型推理过程的"缓存管理技术",目的是为了优化推理速度、效率和成本。 具体来看,UCM是一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级 管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体 验,降低每Token推理成本。 现场,华为公司副总裁、数据存储产品线总裁周跃峰表示,UCM推理记忆数据管理器旨在推动AI推理 体验升级,提升推理性价比,加速AI商业正循环。同时,华为联手中国银联率先在金融典型场景开展 UCM技术试点应用,并联合发布智慧金融AI推理加速方案应用成果。 UCM是什么 对于上述颇多术语的介绍,我们来拆解一下。 首先,什么是KV Cache? 据了解,KV Cache是一种用于优化Transformer等模型推理速度的技术,它的核心思想就是把历史 token 的Key和Value(矩阵)缓存下来,下次生成时直接用,避免重新算,从而提 ...