Workflow
Sparse VideoGen
icon
Search documents
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
机器之心· 2025-06-28 04:35
本文第一作者为美国东北大学博士生沈轩,研究方向为高效人工智能,致力于在 GPU、移动端、FPGA 和 ASIC 等多种硬件平台上实现大模型的高效部署与加 速。第二作者为香港中文大学的韩晨夏,研究方向聚焦于计算机体系结构与 AI 系统的高效化设计。 在高质量视频生成任务中,扩散模型(Diffusion Models)已经成为主流。然而,随着视频长度和分辨率的提升,Diffusion Transformer(DiT)模型中的注意力机制 计算量急剧增加,成为推理效率的最大瓶颈。这是因为在视频生成中,DiT 通常使用 3D 全局注意力来建模时空一致性, 虽然效果出色,但计算量会随着 token 数 量呈平方增长 ,带来了巨大的计算负担。在 HunyuanVideo 等视频生成模型中,注意力模块计算时间占比超过 80%,生成仅 8 秒的 720p 视频甚至需要接近一小时 的时间。因此,提升视频生成模型的生成速度成为了迫切的需求。 现有视频生成加速方法,如 Sparse VideoGen(https://arxiv.org/abs/2502.01776)和 AdaSpa(https://arxiv.org/abs/250 ...
ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」
机器之心· 2025-05-07 07:37
自 OpenAI 发布 Sora 以来,AI 视频生成技术进入快速爆发阶段。凭借扩散模型强大的生成能力,我们已经可以看到接近现实的视频生成效果。但在模型逼真度不 断提升的同时,速度瓶颈却成为横亘在大规模应用道路上的最大障碍。 当前最好的视频生成模型 Wan 2.1、HunyuanVideo 等,在单张 H100 GPU 上生成一个 5 秒的 720p 视频往往需要耗时 30 分钟以上。主要瓶颈出现在 3D Full Attention 模块,约占总推理时间的 80% 以上。 为了解决这个问题,来自加州伯克利和 MIT 的研究者们提出了联合提出了一种新颖的解决方案: Sparse VideoGen。 这是一种 完全无需重新训练模型 的视频生成加速方法。通过挖掘注意力机制中的 空间与时间稀疏性 ,配合 自适应稀疏选择与算子优化 ,成功将 推理时间减半 。令人惊讶的是,它生成的视频与 Dense Attention 方法相比, 几乎没有肉眼可见的差别 ,保持极高的像素保真度 (PSNR = 29)。Sparse VideoGen 也是第一个能够 达到这种级别的像素保真度的方法。 目前,Sparse VideoGen ...