Workflow
腾讯混元AI Infra
icon
Search documents
腾讯混元AI Infra核心技术开源,推理吞吐提升30%
Sou Hu Cai Jing· 2026-02-04 12:22
▲ HPC-Ops 算子库架构图 IT之家 2 月 4 日消息,腾讯混元 AI Infra 团队今日宣布推出开源生产级高性能 LLM 推理核心算子库 HPC- Ops。 该算子库宣称基于生产环境痛点,采用 CUDA 和 CuTe 从零构建,通过抽象化工程架构、微架构深度适配及 指令级极致优化等,降低底层算子开发门槛,将核心算子性能逼近硬件峰值,实现了性能突破。 在真实场景下,基于 HPC-Ops,混元模型推理 QPM 提升 30%,DeepSeek 模型 QPM 提升 17%。同时,在 单算子性能方面,HPC-Ops 实现 Attention 相比 FlashInfer / FlashAttention 最高提升 2.22 倍;GroupGEMM 相 比 DeepGEMM 最高提升 1.88 倍;FusedMoE 相比 TensorRT-LLM 最高提升 1.49 倍。 在未来的发展规划中,HPC-Ops 将持续深耕大模型推理性能的突破方向: IT之家附 HPC-Ops 开源地址如下: 一方面,将重点研发稀疏 Attention 算子,针对性解决长上下文大模型的内存与算力瓶颈; 另一方面,会拓展更丰富的量化策 ...