Diffusion Model

Search documents
基于3DGS和Diffusion的自动驾驶闭环仿真论文总结
自动驾驶之心· 2025-07-24 09:42
作者 | 天然不冻港 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1925525419739834361 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 浅读了近期来自cvpr2025的一些工作,浅显总结一下: 自动驾驶仿真器 = 场景渲染 + 场景外推 + 3D资产重建 + Relighting + 智能体 + 天气 + 其他狠活 HUGSIM HUGSIM: A Real-Time, Photo-Realistic and Closed-Loop Simulator for Autonomous Driving https://doi.org/10.48550/arXiv.2412.01718 第一步:搭个静态环境(建模篇) 用 3D Gaussian Splatting ( 3DGS ) 和 Diffusion Model 打造一个逼真的城市,细节到连路边的奶茶杯都 看得清清楚楚 OmniRe https://a ...
约束,AI创造力的真正源泉
Hu Xiu· 2025-07-22 06:40
我们正处在一个由AI驱动的"文艺复兴2.0"时代。从ChatGPT的吉卜力创意热潮到Veo3生成的爆款短视频, AI似乎有媲美甚至超越人类的创造力。 我们一直以为,这种能力的觉醒源于更庞大的数据集、更复杂的算法和对人类世界的完美模仿。我们曾坚 信,通往更强创造力的道路,是用天量的数据"喂养"出一个灵感涌现不绝的"创新之神"。 但如果真相恰恰相反呢?如果AI的创造力并非源于其"无所不知",而是源于其"一知半解"?如果那些我们 一直试图修复的"技术缺陷",恰恰是点燃其创意火花的秘密引擎呢? 最近,一篇发表在《Quanta Magazine》上的重磅研究,颠覆了我的认知。斯坦福大学的研究者梅森·坎布 (Mason Kamb)和苏里亚·甘古利(Surya Ganguli)的研究成果表明,AI的创造力并非某种高深莫测的"涌 现智能",而是一个令人意外的、由"不完美"设计所催生的必然结果。 一、揭开创意的面纱:所谓的"灵感涌现"只是美丽的误会 长期以来,当我们看到AI生成了一幅"宇航员在巴洛克风格的宫殿里骑马"的图像时,我们倾向于认为AI"理 解"了宇航员、马和巴洛克风格,并像人类艺术家一样将它们创造性地结合起来。这是一 ...
端到端笔记:diffusion系列之Diffusion Planner
自动驾驶之心· 2025-07-09 12:56
作者 | 瑶大 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1925984408785127117 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 paper:https://arxiv.org/pdf/2501.15564 自动驾驶算法两大模块:场景理解、决策。 场景理解:理解周围的环境、预测agents的行为; 做决策:生成安全舒适的轨迹、可定制化多样化(可保守可激进)的驾驶行为。 diffusion planner这篇工作关注 planner 做决策部分,关注闭环场景的性能。 对于自动驾驶规划这一部分有几种方式: rule-based :如PDM(https://arxiv.org/pdf/2306.07962),选择道路中心线,基于周车的行为预测,利用 IDM得到几种候选轨迹,利用nuPlan的评分标准查看哪条轨迹是最好的。 rule-based的迁移性不好,在某个环境、系统下调好的规则不一定适用于其他场景。大 ...
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
机器之心· 2025-06-28 04:35
Core Insights - The article discusses the challenges and advancements in video generation using diffusion models, particularly focusing on the computational bottlenecks associated with attention mechanisms in the Diffusion Transformer (DiT) model [1][6][14] - A new method called DraftAttention is introduced, which significantly reduces the computational overhead of attention mechanisms while maintaining high generation quality, achieving up to 2x end-to-end inference acceleration on GPUs [3][22][46] Group 1: Background and Challenges - Diffusion models have become mainstream for high-quality video generation, but the computational load of attention mechanisms increases dramatically with video length and resolution, leading to inefficiencies [1][6] - In models like HunyuanVideo, attention computation can account for over 80% of the total processing time, with generating an 8-second 720p video taking nearly an hour [1][5] - The complexity of attention mechanisms grows quadratically with the number of tokens, which is directly proportional to video frame count and resolution, causing significant slowdowns in inference speed [6][7] Group 2: Existing Solutions and Limitations - Current acceleration methods, such as Sparse VideoGen and AdaSpa, utilize sparse attention mechanisms for some level of end-to-end acceleration on GPUs, but their effectiveness is limited due to insufficient sparsity and rigid design [2][3] - These methods often rely on fixed sparse operators and lack dynamic adaptability to input content, making it difficult to achieve fine-grained, content-aware sparse pattern control [2][7] Group 3: DraftAttention Methodology - DraftAttention is a plug-and-play, dynamic sparse attention mechanism that does not require training, designed to reduce the computational burden of attention mechanisms while preserving generation quality [3][11][46] - The method involves creating a low-resolution attention map to estimate token importance, guiding the selection of sparse patterns for high-resolution attention calculations [11][12] - A token rearrangement strategy is introduced to enhance the execution efficiency of sparse computations on GPUs, making the approach hardware-friendly [13][22] Group 4: Theoretical Foundations and Experimental Results - The effectiveness of DraftAttention is supported by theoretical analyses demonstrating that the approximation error between the low-resolution and high-resolution attention maps is bounded [15][17] - Experimental evaluations show that DraftAttention outperforms existing sparse attention methods like Sparse VideoGen across multiple metrics, including PSNR and SSIM, particularly at high sparsity rates [20][21] - On NVIDIA H100 and A100 GPUs, DraftAttention achieves up to 1.75x end-to-end inference acceleration, with performance improvements scaling with video length, resolution, and sparsity [22][46] Group 5: Future Directions - The authors plan to further optimize efficiency bottlenecks in long video generation by integrating techniques such as quantization and distillation, aiming to extend high-quality video generation capabilities to resource-constrained environments like mobile and edge devices [46]
李飞飞的世界模型,大厂在反向操作?
Hu Xiu· 2025-06-06 06:26
A16Z 两位合伙人 Martin Casado 和 Eric Torenberg 对李飞飞进行一次深度访谈。 网上搜索,会看到片段式的观点,整体比较跳跃,难以系统理解。因此,我吸收后,重新梳理脉络,试 图汇报给关注空间智能、世界模型的朋友听听: 李飞飞到底在关注什么?她创办的新公司 World Labs,究竟想做什么?这是否预示着 AI 发展的一个新 方向? 很多人不知道这家公司,2024年,著名人工智能专家、斯坦福大学教授李飞飞创办了初创公司 World Labs;这家公司正在探索一个极具前瞻性的方向:开发具备"空间智能"的下一代 AI 系统。 短短三个月内,World Labs 完成两轮融资,累计筹集资金约 2.3亿美元,估值迅速突破 10亿美元,成为 AI 领域最新的独角兽企业。 投资方阵容也非常的强大,包括 a16z、Radical Ventures、NEA、英伟达 NVentures、AMD Ventures 和 Intel Capital 等科技与风投界的重量级玩家。 这些投资机构,国内市场有些你可能没听过,不过,不重要;关键是:李飞飞首次在这场 A16Z 的访谈 中,公开讲述了 World L ...