Workflow
华为发布AI推理创新技术--UCM推理记忆数据管理器

8月12日,2025金融AI推理应用落地与发展论坛在上海举行。会上,华为发布AI推理创新技术--UCM推 理记忆数据管理器。华为公司副总裁、数据存储产品线总裁周跃峰表示,该技术旨在推动AI推理体验 升级,提升推理性价比,加速AI商业正循环。同时,华为携手中国银联率先在金融典型场景开展UCM 技术试点应用,并联合发布智慧金融AI推理加速方案应用成果。 据了解,UCM推理记忆数据管理器包括对接不同引擎与算力的推理引擎插件(Connector)、支持多级 KV Cache管理及加速算法的功能库(Accelerator)以及高性能KV Cache存取适配器(Adapter)三大组 件,通过推理框架、算力、存储三层协同,实现AI推理"更优体验、更低成本"。 推理体验方面,依托UCM层级化自适应的全局前缀缓存技术,系统能直接调用KV缓存数据,避免重复 计算,使首Token时延最大降低90%。同时,UCM将超长序列Cache分层卸载至外置专业存储,通过算 法创新突破模型和资源限制,实现推理上下文窗口10倍级扩展,满足长文本处理需求;推理成本方面, UCM具备智能分级缓存能力,可根据记忆热度在HBM、DRAM、SSD等存储介 ...