Workflow
LoPA
icon
Search documents
7B扩散语言模型单样例1000+ tokens/s!上交大联合华为推出LoPA
机器之心· 2025-12-31 08:11
视频 1 :单样例推理速度对比: SGLang 部署的 Qwen3-8B (NVIDIA) vs. LoPA-Dist 部署 (NVIDIA & Ascend) (注: NVIDIA 平台相同,配置对齐) 本文作者团队来自上海交通大学 DENG Lab 与华为。该研究由徐晨开、金义杰同学等人共同完成,指导教师为邓志杰老师。DENG Lab 隶属上海交通大学,致力于 高效、跨模态生成模型的研究。 实验显示,LoPA 将 D2F-Dream 在 GSM8K 基准上的单步生成 Token 数(TPF)从 3.1 提升至 10.1,并行度提升超 3 倍。配合团队自研的 LoPA-Dist 分布式推理系 统,在华为 Ascend 910C 平台上实现了 1073.9 tokens/s 的单样本吞吐量,不仅大幅超越基线模型,更将 dLLMs 的推理效率推向了新高度。 论文地址:https://arxiv.org/abs/2512.16229 代码地址:https://github.com/zhijie-group/LoPA 博客地址:https://zhijie-group.github.io/blogs/lopa 图 ...