Workflow
Diffusion Model
icon
Search documents
EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案
机器之心· 2025-07-12 04:50
论文作者团队简介:本文第一作者周鑫,共同第一作者梁定康,均为华中科技大学博士生,导师为白翔教授。合作者包括华中科技大学陈楷锦、冯天瑞、林鸿 凯,旷视科技陈习武、丁宜康、谭飞杨和香港大学赵恒爽助理教授。 在 HunyuanVideo 上, EasyCache 在复杂场景下保持与原视频的一致外观,同时显著加速 1. 研究背景与动机 近年来,随着扩散模型(Diffusion Models)和扩散 Transformer(DiT)在视频生成领域的广泛应用,AI 合成视频的质量和连贯性有了飞跃式提升。像 OpenAI Sora、HunyuanVideo、Wan2.1 等大模型,已经能够生成结构清晰、细节丰富且高度连贯的长视频内容,为数字内容创作、虚拟世界和多媒体娱乐带来了巨大变 革。 但与此同时,推理慢、算力消耗高的问题也日益突出。以 HunyuanVideo 为例,生成一个 5 秒、720P 分辨率的视频,单次推理在单张 H20 上需要 2 小时。这种高 昂的资源代价,极大限制了扩散视频生成技术在实时互动、移动端和大规模生产场景的应用落地。 造成这一瓶颈的核心原因,是扩散模型在生成过程中需要多次迭代去噪,每一步都要进 ...
从科研到落地,从端到端到VLA!一个近4000人的智驾社区,大家在这里报团取暖~
自动驾驶之心· 2025-07-11 11:23
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 这几天刚和团队小伙伴沟通完后期工作建设,探讨究竟要做一个什么样的自动驾驶社区?其中一个答案比 较符合我们的思路,那就是一个能够凝聚行业人群、遇到问题能够快速响应、影响到整个行业的地方。 我们目标是未来3年内打造一个万人聚集的智能驾驶&具身智能社区,这里也非常欢迎优秀的同学加入我们 (目前已经有华为天才少年、自驾领域研究前沿的多为大佬加入)。我们和多家业内公司搭建了学术 + 产 品+ 招聘完整的桥梁和链路,同时内部在教研板块也基本形成了闭环(课程 + 硬件+问答)。社区里面既能 看到最新的行业技术动态、技术分享,也有非常多的技术讨论、入门问答,以及必不可少的行业动态及求 职分享。具身智能这么火,要不要考虑转行?自动驾驶技术的未来发展趋势如何?大模型如何预自动驾驶 &具身智能结合?这些都是我们持续关注的 星球核心目录如下: 自动驾驶视频课程及硬件、代码实战 链接:https://t.zsxq.com/9GkD5 0 内部会员独享福利视频教程(免费):涵盖超千元的自动驾驶技术论文解读 1 自动驾驶之心原创直播课程: ...
2025秋招开始了,这一段时间有些迷茫。。。
自动驾驶之心· 2025-07-08 07:53
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 2025年的秋招已经开始了,不少双非的同学都很迷茫。。。 目前在实验室做的工作有些落伍,现在无论是自动驾驶还是具身智能公司都需要实力比较强、背景比较好的同 学。 以下是 知识星球 内部一位双非同学的提问,非常具有代表性: 各位大佬们好,我目前是一个双非的研究生,研究方向是多传感器融合定位的,然后学过python、深度学 习、ros等等,但都学的不是很精,现在想多学一点为以后找工作用,感觉算法岗我的学历可能不太行,请 问各位大佬们我应该往哪个方向学比较好呢?学些什么知识呢? 星主回答:你的技术栈都比较偏机器人一些,SLAM和ROS这块都可以尝试一下和机器人/具身智能打交道。这 块需求也比较大,可以做一些优化、集成类工作~ 另一方面,我们了解到大一些的公司各家的hc都不是很多,要求基本上都是端到端、大模型、VLA、强化学 习、3DGS这些比较前沿的方向。如果你做的是这块,是有机会的,很多tire 1的公司或者主机厂也正在follow前 沿的技术,大概是从无图往端到端转,差不多技术栈推迟1-2代。像LV融合、无图、 ...
双非研究生,今年找工作有些迷茫。。。
自动驾驶之心· 2025-06-30 05:51
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 不少双非的同学都很迷茫。。。 实验室参与的工作有些落伍,现在无论是自动驾驶还是具身智能公司都需要实力比较强、背景比较好的同学。 同时呢,现在也有很多机器人的公司处于快速发展的阶段,很多初创公司都融了比较可观的钱,未来几年问题不 大,而且培养是全方面的。 工作肯定是会苦一些,但技术栈这块确实实打实的可以学习到很多,也建议你看看,像深圳、杭州我们最近也都 线下拜访了很多机器人公司,具身智能毋庸置疑是最前沿的方向了,但确实传统的机器人仍然是产品的主线。 加油~ 最后欢迎大家加入 知识星球 ,硬核资料在星球置顶: 加入后可以获取自动驾驶视频课程、硬件及代码学习资 料。业内最全的全栈学习路线图,独家业内招聘信息分享~ 我们目标是未来3年内打造一个万人聚集的智能驾驶& 具身智能 社区,这里也非常欢迎优秀的同学加入我们(目 前已经有华为天才少年、自驾领域研究前沿的多为大佬加入)。我们和多家业内公司搭建了学术 + 产品+ 招聘完 整的桥梁和链路,同时内部在教研板块也基本形成了闭环(课程 + 硬件+问答)。社区里面既能看到最新 ...
100+自动驾驶数据集,这5个你总得知道吧?
自动驾驶之心· 2025-06-22 01:35
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 自动驾驶技术日渐火热,各类开发者数据集层出不穷。"自动驾驶之心"已整理收录了100多个优质自动 驾驶数据集,为初学者和工程师提供了丰富素材。本文仅选取其中5个数据集进行介绍,覆盖了从感知 (目标检测、分割)到视觉里程计等多种任务场景。无论你是入门新手还是科研工程师,这5个数据集 都值得关注,更多资源欢迎加入社群获取完整资料! 不过,本文介绍的只是"自动驾驶之心"社群中海量资源的一小部分。想要获取全部100+数据集的详细信 息,以及与志同道合的业内同仁实时交流,请加入"自动驾驶之心"知识星球并加入社群! 1. KITTI 数据集 KITTI 数据集是自动驾驶领域最经典、使用最广泛的基准数据集之一。它通过在卡尔斯鲁厄街道环境中 搭载高精度传感器(如双目彩色/灰度相机、Velodyne 3D 激光雷达、GPS/IMU 等)采集数据。数据集中 包含了立体视觉、光流、视觉里程计、3D 目标检测和跟踪等多种感知任务的标注(如图像序列和 3D 物 体轨迹)。丰富的城市、高速和乡村场景让 KITTI 成为评测车载视觉算法性能 ...
数据减少超千倍,500 美金就可训练一流视频模型,港城、华为Pusa来了
机器之心· 2025-06-19 02:28
FVDM & Pusa 一作:刘耀芳目前在香港城市大学攻读博士学位,导师为著名数学家 Prof. Raymond Chan (陈汉夫) 及 Prof. MOREL Jean-Michel。他 也曾在腾讯 AI Lab 实习,主导 / 参与 EvalCrafter , VideoCrafter 等工作,其研究兴趣包括扩散模型,视频生成等;项目主管:刘睿,香港中文大学 MMLab 博士,华为香港研究所小艺团队技术负责人。 论文标题:Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach FVDM 论文:https://arxiv.org/abs/2410.03160 Pusa 主页 / 代码库: https://github.com/Yaofang-Liu/Pusa-VidGen 具体而言,Pusa 通过对预训练模型如 Wan-T2V 14B 进行 非破坏性微调,仅需 500 美金训练成本即可达到比 Wan 官方 I2V(至少 O(100k) 美金的训练 成本)更好的效果,成本降低超 200 倍,数据更是减 ...
挑战 next token prediction,Diffusion LLM 够格吗?
机器之心· 2025-06-08 02:11
机器之心PRO · 会员通讯 Week 23 --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- 1. 挑战 next token prediction,Diffusion LLM 够格吗? 低成本下的高性能模型,是悖论还是可能? 为什么 Gemini Diffusion 是「被忽视的重大突破」?dLLM 有何底气冲击自回归模型?Diffusion 也可被视作无损数据压缩器?dLLM 还有哪 些潜在优势?兑现 dLLM 的潜力还需解决什么问题? ... 2. AI 推理成本暴跌,「互联网女皇」 Mary Meeker 从中看到了什么? Mary Meeker 为何强调 AI 发展速度远超互联网时代?AI 模型训练成本与推理成本「剪刀差」将如何重塑行业竞争格局?企业 该如何平衡算力投入与商业化回报?中国开源模型崛起对全球供应链有何潜在影响?人机协作时代如何平衡劳动力结构转型与 技能重塑? ... 本期完整版通讯含 2 项专题解读 + 27 项 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 4 项,国外方面 12 项。 本期通讯总计 29595 字, ...
Sometimes, the tech just needs time to catch up.
Y Combinator· 2025-06-02 16:59
Sometimes it will take a bit of time for technology to catch up and this company called Replicate that you work with stuck it out. It was from that era. Yeah.They started the company right before co and during the pandemic it was going so poorly that they actually stopped working on it for several months and then they picked it back up and just started like working on it quietly. But it basically was just like they were just building this thing in obscurity for two years until the image diffusion models cam ...
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
3 6 Ke· 2025-05-28 11:59
文|周鑫雨 编辑|苏建勋 预训练还是不是王道?如今AI行业,这是最大的"罗生门"事件。 2023年,模型预训练,还是第一性原理。然而,从OpenAI前首席科学家Ilya公开喊话"预训练已走到尽头",到聚焦强化学习的DeepSeek R1出圈,又昭示着 预训练风光不再。 从人人追捧,到口碑滑坡,预训练境遇的变化,是AI行业"共识"与"非共识"不断流动的一个缩影。 针对AI技术的共识与非共识,2025年5月27日的"技术开放日"上,蚂蚁集团攒了一个交流局。 圆桌对话的参与者,是当下最热的创业者、技术高管和学者: 曹越,视频模型公司Sand.AI创始人,前光年之外联创。2024年7月完成两轮融资后,公司估值已经超过1亿美元; 林俊旸,阿里通义千问(Qwen)技术负责人。从2021年发布的M6,到2025年的Qwen3,他都是名副其实的模型一把手; 孔令鹏,香港大学助理教授、NLP LAB联合主任。其牵头研发的扩散推理模型Dream 7B,成为了开源扩散语言模型的新SOTA。 △图源:作者拍摄 某种意义上,曹越和孔令鹏,都在探寻AI"非共识"的过程中收获颇丰——他们都试图将语言模型和视觉模型训练的主流架构,分别应用到 ...
CVPR 2025 Oral | DiffFNO:傅里叶神经算子助力扩散,开启任意尺度超分辨率新篇章
机器之心· 2025-05-04 04:57
本文由圣路易斯华盛顿大学与北京大学联合完成,第一作者为圣路易斯华盛顿大学的刘晓一,他在北京大学访问期间完成了该项研究;通讯作者为北京大学计算 机学院唐浩助理教授 / 研究员。 从单张低分辨率(LR)图像恢复出高分辨率(HR)图像 —— 即 "超分辨率"(SR)—— 已成为计算机视觉领域的重要挑战。近年来,随着医疗影像、卫星遥感、 视频监控和游戏渲染等应用对图像细节的需求不断提升,该技术的应用愈发广泛。传统深度学习超分模型(如 SRCNN、EDSR)在固定放大倍数下表现优异,但 要么无法支持任意放大尺度,要么在大倍率和复杂纹理场景中常出现细节模糊和伪影。扩散模型能有效恢复高频细节,却因需多次迭代去噪而推理缓慢,难以满 足实时应用需求。为彻底打破 "高质量重建" 与 "快速推理" 之间的矛盾,算子学习在运算效率和分辨率不变性方面的提升为该领域带来了新的机遇。 圣路易斯华盛顿大学和北京大学团队提出的 DiffFNO(Diffusion Fourier Neural Operator)以神经算子赋能扩散架构。该方法支持高质、高效、任何连续倍率(如 2.1、11.5 等)的超分。它的优秀表现来源于三大组件:【1】加权傅 ...