昇腾超大规模MoE模型推理优化技术揭秘:MTP调度10倍提速,INT打平FP8
雷峰网·2025-05-21 13:08
" 华为最新的两个重要推理技术结合,还会激发出哪些AI创新? " 作者丨李希 大模型推理来到加速时代 随着以DeepSeek V3/R1 为代表的超大规模M oE 模型走向主流,如果对如此超高参数量的模型进行推理 优化成了业界普遍关注的议题。作为目前普遍采用的大模型推理加速技术之一,投机推理为大模型生成推 理草稿,一次生成多个token,但面临调度时延过高,算力浪费的问题,就此华为团队提出投机推理框架 FusionSpec,持续提升 MTP 投机在昇腾上的推理性能,使其调度耗时从10ms降为1ms;而作为另一加 速推理的技术,量化技术是DeepSeek模型采用FP8进行训练的核心,而推理时采用Int8部署,亟需突破 FP8到int8的无损量化,为此华为团队也提出了O pti Quant量化框架和算法,让INT 8 性能可以打平FP 8 。下面就分别介绍华为团队的这两个创新技术 高吞吐推理投机,昇腾超大规模MoE模型推理的加速利器 1、何为投机推理技术? 在大语言模型(LLMs)的应用中,推理速度是影响用户体验和应用效率的关键因素。传统的自回归解码 方式,每次仅能生成一个输出 token,且需将历史输出作为输入 ...