昇腾超大规模MoE模型推理优化技术揭秘：MTP调度10倍提速，INT打平FP8

" 华为最新的两个重要推理技术结合，还会激发出哪些AI创新？ " 作者丨李希大模型推理来到加速时代随着以DeepSeek V3/R1 为代表的超大规模M oE 模型走向主流，如果对如此超高参数量的模型进行推理优化成了业界普遍关注的议题。作为目前普遍采用的大模型推理加速技术之一，投机推理为大模型生成推理草稿，一次生成多个token，但面临调度时延过高，算力浪费的问题，就此华为团队提出投机推理框架 FusionSpec，持续提升 MTP 投机在昇腾上的推理性能，使其调度耗时从10ms降为1ms；而作为另一加速推理的技术，量化技术是DeepSeek模型采用FP8进行训练的核心，而推理时采用Int8部署，亟需突破 FP8到int8的无损量化，为此华为团队也提出了O pti Quant量化框架和算法，让INT 8 性能可以打平FP 8 。下面就分别介绍华为团队的这两个创新技术高吞吐推理投机，昇腾超大规模MoE模型推理的加速利器 1、何为投机推理技术？在大语言模型（LLMs）的应用中，推理速度是影响用户体验和应用效率的关键因素。传统的自回归解码方式，每次仅能生成一个输出 token，且需将历史输出作为输入 ...