Workflow
Diffusion model
icon
Search documents
端到端笔记:diffusion系列之Diffusion Planner
自动驾驶之心· 2025-07-09 12:56
作者 | 瑶大 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1925984408785127117 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 paper:https://arxiv.org/pdf/2501.15564 自动驾驶算法两大模块:场景理解、决策。 场景理解:理解周围的环境、预测agents的行为; 做决策:生成安全舒适的轨迹、可定制化多样化(可保守可激进)的驾驶行为。 diffusion planner这篇工作关注 planner 做决策部分,关注闭环场景的性能。 对于自动驾驶规划这一部分有几种方式: rule-based :如PDM(https://arxiv.org/pdf/2306.07962),选择道路中心线,基于周车的行为预测,利用 IDM得到几种候选轨迹,利用nuPlan的评分标准查看哪条轨迹是最好的。 rule-based的迁移性不好,在某个环境、系统下调好的规则不一定适用于其他场景。大 ...
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
机器之心· 2025-06-28 04:35
本文第一作者为美国东北大学博士生沈轩,研究方向为高效人工智能,致力于在 GPU、移动端、FPGA 和 ASIC 等多种硬件平台上实现大模型的高效部署与加 速。第二作者为香港中文大学的韩晨夏,研究方向聚焦于计算机体系结构与 AI 系统的高效化设计。 在高质量视频生成任务中,扩散模型(Diffusion Models)已经成为主流。然而,随着视频长度和分辨率的提升,Diffusion Transformer(DiT)模型中的注意力机制 计算量急剧增加,成为推理效率的最大瓶颈。这是因为在视频生成中,DiT 通常使用 3D 全局注意力来建模时空一致性, 虽然效果出色,但计算量会随着 token 数 量呈平方增长 ,带来了巨大的计算负担。在 HunyuanVideo 等视频生成模型中,注意力模块计算时间占比超过 80%,生成仅 8 秒的 720p 视频甚至需要接近一小时 的时间。因此,提升视频生成模型的生成速度成为了迫切的需求。 现有视频生成加速方法,如 Sparse VideoGen(https://arxiv.org/abs/2502.01776)和 AdaSpa(https://arxiv.org/abs/250 ...
李飞飞的世界模型,大厂在反向操作?
Hu Xiu· 2025-06-06 06:26
A16Z 两位合伙人 Martin Casado 和 Eric Torenberg 对李飞飞进行一次深度访谈。 网上搜索,会看到片段式的观点,整体比较跳跃,难以系统理解。因此,我吸收后,重新梳理脉络,试 图汇报给关注空间智能、世界模型的朋友听听: 李飞飞到底在关注什么?她创办的新公司 World Labs,究竟想做什么?这是否预示着 AI 发展的一个新 方向? 很多人不知道这家公司,2024年,著名人工智能专家、斯坦福大学教授李飞飞创办了初创公司 World Labs;这家公司正在探索一个极具前瞻性的方向:开发具备"空间智能"的下一代 AI 系统。 短短三个月内,World Labs 完成两轮融资,累计筹集资金约 2.3亿美元,估值迅速突破 10亿美元,成为 AI 领域最新的独角兽企业。 投资方阵容也非常的强大,包括 a16z、Radical Ventures、NEA、英伟达 NVentures、AMD Ventures 和 Intel Capital 等科技与风投界的重量级玩家。 这些投资机构,国内市场有些你可能没听过,不过,不重要;关键是:李飞飞首次在这场 A16Z 的访谈 中,公开讲述了 World L ...