华为在沪发布AI推理创新技术UCM 9月将正式开源
Sou Hu Cai Jing·2025-08-12 11:53
周跃峰在论坛上表示:"AI时代,模型训练、推理效率与体验的量纲都以Token数为表征,Token经济已经到来"。为保障 流畅的推理体验,企业需持续加大算力投入,但如何在推理效率与成本之间找到最佳平衡点,成为了全行业亟待解决的 重要课题。 东方网记者曹磊8月12日报道:当前,人工智能已步入发展深水区,AI推理正成为下一个爆发式增长的关键阶段。今天下 午,2025金融AI推理应用落地与发展论坛在上海举行。论坛上,华为公司副总裁、数据存储产品线总裁周跃峰博士发布 AI推理创新技术——UCM推理记忆数据管理器。 作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache 记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。同时,华为携手中国银联 率先在金融典型场景开展UCM技术试点应用,并联合发布智慧金融AI推理加速方案应用成果。 为此,华为推出UCM推理记忆数据管理器,包括对接不同引擎与算力的推理引擎插件(Connector)、支持多级KV Cache管理及加速算法的功能库(Accelerator)、高性能KV Cac ...