Diffusion Transformer

Search documents
EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案
机器之心· 2025-07-12 04:50
论文作者团队简介:本文第一作者周鑫,共同第一作者梁定康,均为华中科技大学博士生,导师为白翔教授。合作者包括华中科技大学陈楷锦、冯天瑞、林鸿 凯,旷视科技陈习武、丁宜康、谭飞杨和香港大学赵恒爽助理教授。 在 HunyuanVideo 上, EasyCache 在复杂场景下保持与原视频的一致外观,同时显著加速 1. 研究背景与动机 近年来,随着扩散模型(Diffusion Models)和扩散 Transformer(DiT)在视频生成领域的广泛应用,AI 合成视频的质量和连贯性有了飞跃式提升。像 OpenAI Sora、HunyuanVideo、Wan2.1 等大模型,已经能够生成结构清晰、细节丰富且高度连贯的长视频内容,为数字内容创作、虚拟世界和多媒体娱乐带来了巨大变 革。 但与此同时,推理慢、算力消耗高的问题也日益突出。以 HunyuanVideo 为例,生成一个 5 秒、720P 分辨率的视频,单次推理在单张 H20 上需要 2 小时。这种高 昂的资源代价,极大限制了扩散视频生成技术在实时互动、移动端和大规模生产场景的应用落地。 造成这一瓶颈的核心原因,是扩散模型在生成过程中需要多次迭代去噪,每一步都要进 ...
AI应用系列报告:AI视频生成:商业化加速,国产厂商表现亮眼
Guoyuan Securities· 2025-06-27 05:13
传媒行业 投资评级 推荐 维持 AI视频生成:商业化加速,国产厂商表现亮眼 ——AI应用系列报告 证券研究报告 2025年6月27日 证券分析师: 李典 邮箱: lidian@gyzq.com.cn SAC执业资格证书编码:S0020516080001 联系人: 郜子娴 邮箱:gaozixian@gyzq.com.cn 报告要点 请务必阅读正文之后的免责条款部分 2 技术路径:从GAN-Transformer-Diffusion Model-DiT,技术演进推动行业进入可商用阶段:20世纪90年代以来,AI视频生成持续迭 代,经历了多个关键技术的突破,经历了从静态图像序列拼接成视频流-GAN-Transformer-Diffusion Model-DiT的技术演进,生成内容 丰富度以及可控性持续提升。Sora验证了Diffusion和Transformer结合的有效性,并带动DiT架构逐渐成为当前重点方向。 行业进入商业化发展快轨,根据Fortune Business Insights预计2032年全球规模突破184亿人民币。根据Fortune Business Insights 测算,2024年AI视频生成 ...
可媲美GPT-4o的开源图像生成框架来了!腾讯联手InstantX解决角色一致性难题
量子位· 2025-04-23 04:50
InstantCharacter 投稿 量子位 | 公众号 QbitAI GPT-4o带火的漫画风角色生成,现在有了开源版啦! 腾讯混元携手InstantX团队合作打破次元壁,开源 定制化角色生成插件——InstantCharacter 。 以往针对角色驱动的图像生成方法,都存在一定的缺陷。 例如,基于适配器的方案虽然基本实现主体一致和文本可控,但在泛化性、姿势变化和风格转换的开放域角 色方面仍然存在困难。基于微调则需对模型进行重新训练,从而浪费过长的时间。更不必说,费用高昂的推 理时间的微调。 为了更好地适应DiT模型,研究员提出了一种可扩展的 full-transformer适配器 ,它作为角色图像与基础模 型潜在生成空间之间的关键连接,通过增加层深度和隐藏特征尺寸实现可扩展性。 而现在这个插件基于 DiTs(Diffusion Transformers) ,能在保证推理效率和文本可编辑性的同时,完 美实现角色个性化创作。 那么一起看看它具体是如何实现的? 方法介绍 现代 DiTs与传统的UNet架构相比,展现出前所未有的保真度和容量,为生成和编辑任务提供了更强大的基 础。基于此,InstantChara ...