华为发布AI黑科技UCM，9月正式开源

据了解，目前，国外主流模型的单用户输出速度已进入200 Tokens/s区间（时延5ms），而我国普遍小于 60 Tokens/s（时延50-100ms），如何解决推理效率与用户体验的难题迫在眉睫。 "高延迟、高成本是当下AI推理领域发展的主要挑战。"华为数字金融军团CEO曹冲在会上表示。华为方面介绍，作为一款以KV Cache为中心的推理加速套件，UCM融合了多类型缓存加速算法工具，分级管理推理过程中产生的KV Cache记忆数据，可扩大推理上下文窗口，以实现高吞吐、低时延的推理体验，降低每Token推理成本。在具体技术实现路径方面，华为相关负责人表示，UCM通过层级化自适应的全局前缀缓存技术，可实现任意物理位置、任意输入组合上的KV前缀缓存重用，在多轮对话、RAG知识检索等场景中直接调用 KV缓存数据，避免重复计算，使首Token时延最大降低90%。（原标题：华为发布AI黑科技UCM，9月正式开源） AI时代下，推理技术关系用户与AI交互的体验，包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等，在此背景下，华为最新推出AI推理黑科技UCM（推理记忆数据管理器），可大幅降低推理时延 ...