大模型Infra新突破!腾讯混元开源LLM推理算子库,推理吞吐提升30%
混元AI Infra团队 投稿 量子位 | 公众号 QbitAI 大模型竞赛中,算力不再只是堆显卡,更是抢效率。 面对H20等推理卡在主流算子库下难以跑满性能的痛点, 腾讯混元AI Infra团队正式 开源生产级高性能LLM推理核心算子库HPC-Ops 。 该算子库采用CUDA和CuTe从零构建,通过抽象化工程架构、微架构深度适配及指令级极致优化等,降低底层算子开发门槛,将核心算子性 能逼近硬件峰值,实现了显著性能突破。 在真实场景下,基于HPC-Ops,混元模型推理QPM提升 30% ,DeepSeek模型QPM提升 17% 。 同时,在单算子性能方面,HPC-Ops实现Attention相比FlashInfer/FlashAttention 最高提升2.22倍 ; GroupGEMM 相比DeepGEMM最高提升1.88倍;FusedMoE相比TensorRT-LLM最高提升1.49倍。 主流算子库亟需更适配的底层支持 在大模型时代,计算效率已成为AI应用及发展的关键瓶颈。 目前主流算子库(如FlashInfer、DeepGEMM)多以 NVIDIA H800 等高配训练卡为首要优化目标,但限于客观原因, ...