Workflow
华为发布AI黑科技UCM,9月正式开源
Zheng Quan Shi Bao Wang·2025-08-12 10:16

据了解,目前,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于 60 Tokens/s(时延50-100ms),如何解决推理效率与用户体验的难题迫在眉睫。 "高延迟、高成本是当下AI推理领域发展的主要挑战。"华为数字金融军团CEO曹冲在会上表示。 华为方面介绍,作为一款以KV Cache为中心的推理加速套件,UCM融合了多类型缓存加速算法工具, 分级管理推理过程中产生的KV Cache记忆数据,可扩大推理上下文窗口,以实现高吞吐、低时延的推 理体验,降低每Token推理成本。 在具体技术实现路径方面,华为相关负责人表示,UCM通过层级化自适应的全局前缀缓存技术,可实 现任意物理位置、任意输入组合上的KV前缀缓存重用,在多轮对话、RAG知识检索等场景中直接调用 KV缓存数据,避免重复计算,使首Token时延最大降低90%。 (原标题:华为发布AI黑科技UCM,9月正式开源) AI时代下,推理技术关系用户与AI交互的体验,包括回答问题的时延、答案的准确度以及复杂上下文 的推理能力等,在此背景下,华为最新推出AI推理黑科技UCM(推理记忆数据管理器),可大幅降低 推理时延 ...