Workflow
HunyuanVideo
icon
Search documents
EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案
机器之心· 2025-07-12 04:50
论文作者团队简介:本文第一作者周鑫,共同第一作者梁定康,均为华中科技大学博士生,导师为白翔教授。合作者包括华中科技大学陈楷锦、冯天瑞、林鸿 凯,旷视科技陈习武、丁宜康、谭飞杨和香港大学赵恒爽助理教授。 在 HunyuanVideo 上, EasyCache 在复杂场景下保持与原视频的一致外观,同时显著加速 1. 研究背景与动机 近年来,随着扩散模型(Diffusion Models)和扩散 Transformer(DiT)在视频生成领域的广泛应用,AI 合成视频的质量和连贯性有了飞跃式提升。像 OpenAI Sora、HunyuanVideo、Wan2.1 等大模型,已经能够生成结构清晰、细节丰富且高度连贯的长视频内容,为数字内容创作、虚拟世界和多媒体娱乐带来了巨大变 革。 但与此同时,推理慢、算力消耗高的问题也日益突出。以 HunyuanVideo 为例,生成一个 5 秒、720P 分辨率的视频,单次推理在单张 H20 上需要 2 小时。这种高 昂的资源代价,极大限制了扩散视频生成技术在实时互动、移动端和大规模生产场景的应用落地。 造成这一瓶颈的核心原因,是扩散模型在生成过程中需要多次迭代去噪,每一步都要进 ...
写了两万字综述 - 视频未来帧合成:从确定性到生成性方法
自动驾驶之心· 2025-07-08 12:45
现在在做 camera ready 版本,如果大家有 insight 或者文献补充欢迎留言 作者 | hzwer 黄哲威 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1918322086205718663 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 本来是去年想投个IJCAI survey track练手的,一开始只写了七页,结果出了一些事故desk reject 后来修修改改投期刊,补到二十多页,终于可以发表了 希望能比 deep research 自动生成的水平高一些 论文链接:https://arxiv.org/abs/2401.14718 摘要:未来帧合成(Future Frame Synthesis, FFS)的目标是基于现有内容生成未来的帧序列,强调合成方 面,扩展了视频帧预测的范围。本综述全面回顾了FFS领域的现有研究,涵盖了常用的基准数据集和代表性 算法。我们讨论了该领域的关键挑战,并追溯了FFS在 ...
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
机器之心· 2025-06-28 04:35
本文第一作者为美国东北大学博士生沈轩,研究方向为高效人工智能,致力于在 GPU、移动端、FPGA 和 ASIC 等多种硬件平台上实现大模型的高效部署与加 速。第二作者为香港中文大学的韩晨夏,研究方向聚焦于计算机体系结构与 AI 系统的高效化设计。 在高质量视频生成任务中,扩散模型(Diffusion Models)已经成为主流。然而,随着视频长度和分辨率的提升,Diffusion Transformer(DiT)模型中的注意力机制 计算量急剧增加,成为推理效率的最大瓶颈。这是因为在视频生成中,DiT 通常使用 3D 全局注意力来建模时空一致性, 虽然效果出色,但计算量会随着 token 数 量呈平方增长 ,带来了巨大的计算负担。在 HunyuanVideo 等视频生成模型中,注意力模块计算时间占比超过 80%,生成仅 8 秒的 720p 视频甚至需要接近一小时 的时间。因此,提升视频生成模型的生成速度成为了迫切的需求。 现有视频生成加速方法,如 Sparse VideoGen(https://arxiv.org/abs/2502.01776)和 AdaSpa(https://arxiv.org/abs/250 ...
清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练
机器之心· 2025-06-18 09:34
随着大型模型需要处理的序列长度不断增加,注意力运算(Attention)的时间开销逐渐成为主要开销。此前,清华大学陈键飞团队提出的即插即用的 SageAttention 和 SageAttention2 已经被业界及社区广泛的使用于各种开源及商业的大模型中,比如 Vidu,CogvideoX,Mochi,Wan,HunyuanVideo,Flux,Llama3,Qwen 等。 近日,清华大学陈键飞团队进一步提出了针对 BlackWell 架构的首个全 FP4 量化的即插即用注意力算子( SageAttention3 )。实现了 5 倍相比于 FlashAttention 的 即插即用的推理加速 (此前的 SageAttention V1/V2/V2++ 分别达到了 2.1,3,3.9 倍的加速效果),比如在 RTX 5090 上,SageAttention3 达到了 1040 TOPS 的速 度,甚至是比 RTX 5090 昂贵十几倍的 H100 上使用 Hopper 独有的 FlashAttention3 还要快 1.65 倍!SageAttention3 在多种视频和图像生成等大模型上(包括 Hunyua ...
腾讯开源的HunyuanVideo-Avatar上传一张图+一段音频,虚拟角色“活”过来
Sou Hu Cai Jing· 2025-06-04 02:48
今天早上,GitHub上突然冒出一个让AI圈炸锅的项目——腾讯开源的HunyuanVideo-Avatar。 这是一个开源的视频生成工具,上传一张图+一段音频,就能让图中的人物、动物甚至虚拟角色"活"过来,开口说话、唱歌、演相声! 连爱因斯坦和奥黛丽·赫本都能被AI"复活"同台说相声,这类工具其实之前就有,那腾讯这次开源的HunyuanVideo-Avatar有什么魅力呢,一起来看看? 一、你的照片会"演戏" HunyuanVideo-Avatar的核心逻辑就像个"数字人导演",它能从一张静态图中读懂场景,再根据音频的情感让角色动起来。而这一切的秘密武器,藏在三个 模块里: 1、告别AI生成的"网红脸"! 传统模型容易生成"千人一面"的角色,而腾讯用这个模块直接把你的照片"刻"进模型里。能精准保留原图细节,连衣服褶皱和背景光影都保持一致。 3、多人飙戏不串场! 看Demo,视频中两个角色的唇形、表情、手势完全独立,连互动时的眼神交流都自然得像真人演员。 二、创意可以成真 HunyuanVideo-Avatar可以在这些场景应用: 电商直播:上传商品图+促销文案,AI主播24小时在线带货,还能根据"限时秒杀"的 ...
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-05-30 18:51
每周50关键词 把握全局AI动态 点击 关键词 可查看资讯概述 | 类别 | Top关键词 | 主体 | | --- | --- | --- | | 芯片 | 「阉割版」GPU | 英伟达 | | 算力 | 并购中科曙光 | 海光信息 | | 模型 | 新版R1开源 | DeepSeek | | 模型 | 世界模型 | Odyssey | | 模型 | 攻破30年bug | Claude Opus | | 模型 | QwenLong-L1-32B | 阿里 | | 模型 | Gemma变体 | Google | | 模型 | RLVR范式 | Claude | | 模型 | BAGEL | 字节 | | 模型 | xbench基准测试 | 红杉中国 | | 应用 | 可灵2.1更新 | 可灵 | | 应用 | 多产品R1接入 | 腾讯 | | 应用 | Opera Neon | Opera | | 应用 | Tripo Studio升级 | VAST | | 应用 | AI Scientist | Zochi | | 应用 | 语音模式 | Claude | | 应用 | 实时摄像头 | AKOOL | | ...
100观察 | 即时零售行业正在转向 告别低价“内卷”,品质与服务成关键
Mei Ri Jing Ji Xin Wen· 2025-05-30 10:33
Group 1: Industry Overview - JD Group's launch of "JD Takeaway" and a "100 billion subsidy" has intensified competition in the instant retail sector, particularly among Meituan, JD, and Ele.me [1] - Meituan's CEO Wang Xing emphasized that market competition promotes industry development, especially for instant retail, but the "low-quality, low-price" competition is unsustainable in the long term [1][9] - The collective shift towards "quality" as a core strategy among major platforms indicates a move away from price wars to a focus on value competition [1][2] Group 2: Regulatory Environment - In May, regulatory authorities held discussions with food delivery platforms, reflecting a tightening stance against "low-quality, low-price" and "involution" competition [1] Group 3: Company Developments - Meituan's flash purchase service reported a 200% year-on-year increase in transaction volume during the first day of the "618" event, driven by surging demand for instant retail [4] - China National Offshore Oil Corporation (CNOOC) announced the successful launch of the Mero4 project in Brazil, which will enhance overall oil production capacity [5] - Xiaomi clarified that its "Xuanjie O1" chip is not customized from Arm, highlighting its advancements in independent chip development [3] - BYD's blade battery and fast-charging blade battery passed the new national battery standards ahead of schedule, showcasing its leadership in battery safety technology [8] - Changan Automobile appointed two new product CEOs to enhance management in the context of its transition to new energy vehicles [10] - GAC Group partnered with Alibaba Cloud for overseas market expansion, focusing on digital infrastructure and supply chain management [11]
国际产业新闻早知道:欧盟计划设立科技企业扩大基金,AMD加码CPO共封装光学
Chan Ye Xin Xi Wang· 2025-05-29 06:22
Group 1: European Technology Initiatives - The European Commission plans to establish a public-private partnership fund of at least €10 billion (approximately $11.3 billion) to help technology companies scale up, aiming to close the innovation gap with the US and China [4] - The strategy "Choose Europe: From Startups to Scaleups" was launched to address the challenges faced by startups in the EU, including regulatory fragmentation across 27 member states and difficulties in accessing financing, markets, talent, and infrastructure [4] Group 2: AI Developments - DeepSeek has released an open-source version of its R1 model, which reportedly performs comparably to OpenAI's latest o3 model [5] - Telegram has entered a one-year partnership with xAI to integrate Grok into its application, with Telegram receiving $300 million in cash and equity, plus 50% of subscription revenue from xAI [6] - Tencent has launched and open-sourced its voice digital human model, HunyuanVideo-Avatar, aimed at video creators [8] - Amazon Web Services and SAP have initiated a new AI joint innovation program to help partners build generative AI applications [9][10] - Salesforce plans to acquire Informatica for approximately $8 billion to enhance its competitive edge in the AI market [11] - AI infrastructure startup Chalk has completed a $50 million Series A funding round, achieving a valuation of $500 million [12] Group 3: Semiconductor Industry - The US is reportedly set to ban the export of semiconductor design software to China, affecting major companies that dominate the Electronic Design Automation (EDA) market [14][15] - The EU is exploring new paths for chip industry development, aiming to double its global semiconductor production share to at least 20% by 2030 [16][18] - TSMC plans to establish a chip design center in Munich, Germany, to support European customers in designing high-density, high-performance chips [40] Group 4: Energy and Mining - China Petroleum & Chemical Corporation (Sinopec) has established a hydrogen energy industry chain venture capital fund to promote innovation and development in the hydrogen sector [56] - Harmony Gold has agreed to acquire MAC Copper for $1.03 billion to expand its operations in Australia, focusing on a high-grade copper mine [57]
字节内部禁用Cursor等AI编程工具;泡泡玛特回应Labubu品控不佳;大疆即将发布扫地机器人首款产品丨邦早报
创业邦· 2025-05-29 00:04
完整早报音频,请点击标题下方小耳机收听 【字节发最新内部邮件:将禁用 Cursor 等第三方 AI 开发软件,推自研 Trae 作为替代】 字节跳动安全与风控部 门发布邮件称,出于对防范数据泄露风险的考虑,自 6 月 30 日起,将在内部分批次禁用第三方 AI 开发软件,包 括 AI 编程工具 Cursor 、 Windsurf 等,并将字节旗下的编程助手 Trae 作为替代方案。今年 3 月,字节推出 Trae 国内版,称是"国内首个 AI 原生集成开发环境工具( AI IDE )"。此前发布的 Trae 海外版本周已上线付费 方案, Pro 版首月收费 3 美元 / 月。 ( 蓝鲸新闻 ) 【比亚迪回应山东经销商爆雷:该经销商盲目扩张并加杠杆运营,在对其进行纾困】 比亚迪方面回应了经销商爆雷 事件。此前,比亚迪山东区域经销商济南乾城资金链断裂事件曝光,引发行业关注。 5 月 28 日,比亚迪方面回应 称,"网传信息不属实!过去几年,我们对经销商的政策连续且稳定。据了解,该经销商集团由于盲目极速扩张并加 杠杆运营,导致资金链出现问题。去年底以来,该经销商集团的部分 4S 店,已被当地其他经销商收购。""我们 ...
Getty Images斥资数百万美元对抗AI文生图公司;腾讯发布并开源混元语音数字人模型丨AIGC日报
创业邦· 2025-05-29 00:04
扫码订阅 AIGC 产业日报, 2.【腾讯发布并开源混元语音数字人模型】腾讯混元发布并开源的语音数字人模型HunyuanVideo- Avatar,由腾讯混元视频大模型及腾讯音乐天琴实验室MuseV技术联合研发,支持头肩、半身与全身 景别,以及多风格、多物种与双人场景,面向视频创作者提供高一致性、高动态性的视频生成能力。 用户可上传人物图像与音频,HunyuanVideo-Avatar模型会自动理解图片与音频,比如人物所在环 境、音频所蕴含的情感等,让图中人物自然地说话或唱歌,生成包含自然表情、唇形同步及全身动作 的视频。(证券时报) 3.【Getty Images斥资数百万美元对抗AI文生图公司】视觉内容公司Getty Images首席执行官克雷格 ·彼得斯表示,这家图片授权公司正投入数百万美元资金,起诉Stability AI。彼得斯指出,以文生图 模型Stable Diffusion闻名的英国初创公司Stability AI及其他AI实验室,为商业利益窃取受版权保护 的内容训练AI模型。(新浪科技) 4.【韩国拟今年投入4800亿韩元开发AI相关产品和服务】韩国产业通商资源部周三表示,韩国今年将 斥资约 ...