Workflow
扩散模型
icon
Search documents
ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成
机器之心· 2025-06-28 02:54
本文第一作者是西湖大学博士生冯睿骐,通讯作者为西湖大学人工智能系助理教授吴泰霖。吴泰霖实验 室专注于解决 AI 和科学交叉的核心问题,包含科学仿真、控制、科学发现。 在解决离线强化学习、图片逆问题等任务中,对生成模型的 能量引导 (energy guidance)是一种可 控的生成方法,它构造灵活,适用于各种任务,且允许无额外训练条件生成模型。同时 流匹配 (flow matching)框架作为一种生成模型,近期在分子生成、图片生成等领域中已经展现出巨大潜力。 然而,作为比扩散模型更一般的框架,流匹配允许从几乎任意的源分布以及耦合分布中生成样本。这在 使得它更灵活的同时,也使得能量引导的实现 与扩散模型有根本不同且更加复杂 。因此,对于流匹配 来说,如何得到具有理论保证的能量引导算法仍然是一个挑战。 针对这一问题,作者从理论上推导得到全新能量引导理论框架,并进一步提出多样的实际能量引导算 法,可以根据任务特性进行灵活选择。本工作的主要贡献如下: 本工作首次提出了流匹配能量引导理论框架。 在本框架指导下,本工作提出三大类无需训练的实用流匹配能量引导算法,并可将经典扩散模型 能量引导算法包含为特例。 本工作给出了 ...
之心急聘!25年业务合伙人招聘,量大管饱~
自动驾驶之心· 2025-06-27 09:34
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 你好啊,我们是自动驾驶之心。很开心你能点进来!如果你也认同内容可以改变世界,那你可能就是我们 在找的人! 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
生成式视角重塑监督学习!标签不只是答案,更是学习指南 | ICML 2025
量子位· 2025-06-24 13:36
PCL团队 投稿 量子位 | 公众号 QbitAI 生成式视角可以对监督学习重新思考乃至重新定义! 想象你在教一个学生解数学题——你会直接让他交卷对答案,还是会让他参考完整答案来理解解题思路? 如今,一种全新的监督学习范式正受到关注:标签不应只是用于对照回答的标准答案,更可能成为学习过程中的辅助参考。 受生成式一致性模型的启发,来自上海交大、SII、MIT、港中文深圳等机构的研究团队在ICML 2025最新提出预测一致性学习(PCL, Predictive Consistency Learning)。 PCL通过扩散模型的扩散过程消减标签的信息,将噪声标签(Noised Labels)引入模型的输入,使得模型在数据输入和噪声标签的共同参照 下预测完整标签,实现标签信息的复用和价值挖掘。 训练过程概览 传统监督学习中,输入 通过神经网络预测 ,通过对比和标准答案 之间的关系,来计算损失和反向传播更新模型,对应损失函数 $${\mathcal{L}}_{S L}=d(f_{\theta}(\mathbf{x}),\mathbf{y}),$$ 其中 为具体损失函数, 为神经网络函数。受生成一致性模型中一致性映射思想 ...
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能、场景、方法论全解析~
具身智能之心· 2025-06-21 12:06
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨具身智能之心 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近很多同学询问π0、π0.5、A0都是啥?用在什么地方?能实现哪些功能?方法论有啥不同?前面 刚开始听到这些,也一头雾水,今天为大家梳理下。 π₀模型结构 原文:π0: A Vision-Language-Action Flow Model for General Robot Control π₀的核心架构基于 预训练视觉语言模型(VLM) 和 Flow Matching 技术,具体包含以下关键组件: VLM backbone 动作专家(Action Expert) 跨具身训练(Cross-Embodiment Training) 整合 7 种机器人、68 项任务、超 10,000 小时数据(含开源 OXE 数据集),通过权重调整处理不 同机器人的动作空间差异(如零填充低维动作向量)。 训练流程 基于 PaliGemma V ...
打造万人的自动驾驶黄埔军校,一个死磕技术的地方~
自动驾驶之心· 2025-06-20 14:06
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 这几天刚和团队小伙伴沟通完后期工作建设,探讨究竟要做一个什么样的自动驾驶社区?其中一个答案比 较符合我们的思路,那就是一个能够凝聚行业人群、遇到问题能够快速响应、影响到整个行业的地方。 2025年我们应该瞄准哪些技术领域? 从24年下半年开始,自驾一个非常明显的信号是技术迭代的周期越来越短。2025年智驾的技术基调基本确 定,大模型赋能下的端到端2.0 — VLA。这里面涵盖的技术栈非常前沿:视觉大语言模型VLM基座、基于 扩散模型的端到端轨迹联合预测、端到端闭环仿真的3DGS和生成技术、世界模型解锁自动驾驶未来演进。 我们目标是未来3年内打造一个万人聚集的智能驾驶&具身智能社区,这里也非常欢迎优秀的同学加入我们 (目前已经有华为天才少年、自驾领域研究前沿的多为大佬加入)。我们和多家业内公司搭建了学术 + 产 品+ 招聘完整的桥梁和链路,同时内部在教研板块也基本形成了闭环(课程 + 硬件+问答)。社区里面既能 看到最新的行业技术动态、技术分享,也有非常多的技术讨论、入门问答,以及必不可少的行业动态及求 职分享 ...
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 11:54
以下是知识星球里面一位同学的提问: 请问VLA和VLM的区别是什么?现在推荐学哪个呢? 这两者互为表里: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型已经席卷各个领域,在智能驾驶领域,VLM也正在逐渐铺开落地量产。 不少入门的小伙伴也表示,现在大模型太重要了,想要入门学习,但有点拿不准方向。 1、VLM可以理解基础的能力,可以是通用的检测、问答、空间理解、思维链等等能力 2、VLA更侧重Action的能力,最终目的是为了做动作,在自动驾驶中可以理解为自车轨迹预测的能力,通时预 测的轨迹又要尽可能的符合人类的理解,这又进一步依赖vision和language的基本能力,比如我要解释这个行 为,可以使用思维链的形式一步步推理分析,这里面依赖自动驾驶基础的感知(行人在哪里,2D坐标,3D位置 等等) 这两者没办法完全独立的学习,我认为的方式应该是先学VLM,再去扩展到VLA VLM接扩散模型就可以预测轨迹,也就是Action,这块就涉及到多模轨迹的好处了,面对不确定的环境,单模 的能力有限,多模的上限是更高的 最后欢迎大家加入知识星球,硬核资料在星球置 ...
何恺明CVPR最新讲座PPT上线:走向端到端生成建模
机器之心· 2025-06-19 09:30
机器之心报道 编辑:张倩 生成模型会重现识别模型的历史吗? 今年的 CVPR 已经在美国田纳西州纳什维尔顺利闭幕。除了交流论文、互加好友,很多参会者还参加了个非常有意思的项目 —— 追星。 这个「星」自然是学术明星。从前方发来的实况来看,MIT 副教授何恺明可能是人气最高的那一个。他的讲座全场爆满,还有很多同学晒出了与恺明大神的合 影。 其实,这次现身 CVPR 会场的何恺明有着多重身份,包括但不限于最佳论文奖委员会成员、「Visual Generative Modeling: What's After Diffusion?」workshop 演讲嘉 宾等。 这个 workshop 聚焦的主题是扩散模型之后的视觉生成建模演进方向。 近年来,扩散模型迅速超越了先前的方法,成为视觉生成建模中的主导方法,广泛应用于图像、视频、3D 物体等的生成。然而,这些模型也存在一些显著的局限 性,例如生成速度较慢、生成过程中人类干预有限,以及在模拟复杂分布(如长视频)时面临挑战。 这个 workshop 旨在探索视觉生成建模中能够超越扩散模型的方法,何恺明在活动中做了主题为「Towards End-to-End Generat ...
理想一篇论文入选近半年端到端自动驾驶推荐度最高的10篇论文
理想TOP2· 2025-06-18 11:43
以下文章来源于深蓝AI ,作者深蓝学院 深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。 近半年端到端自动驾驶推荐度最高的10篇论文,是由深蓝AI调研了数十位自动驾驶一线研究者后得出的。 深蓝AI自己的定位是人工智能、机器人与自动驾驶的学习平台,受众是相关的技术从业人员。 原标题是" 盘点|近半年「端到端自动驾驶」推荐度最高的10篇论文 ",并没有带理想,这10篇论文本身也是去中心化排列的,不存在理想公关的 部分。 TOP2非常明显得感知到过去一年,理想在面向自动驾驶从业群体的号的存在感越来越强,甚至可以说,如果是面向母语为中文的自动驾驶从业群 体的号,在过去一年,已经不可能不多发几篇理想的内容。目前理想在面向AI从业群体的号的存在感,还不算特别强,还是有不少AI号主对理想做 AI感知不强。 额外提醒读者留意3点: 1. 李想在24Q4电话会议上比喻端到端是猴子开车,VLM是副驾的人类,给猴子一些指令,VLA是主驾就是人类在开车。即我们合情预期,VLA的 拟人感可以明显比VLM上一个台阶。 从技术架构来说,VLM是两个系统,系统1本质是通过模仿学习的方式端出轨迹,不具备任何语意理解的能力。(对应猴子 ...
一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成
机器之心· 2025-06-10 08:41
在构建通用人工智能、世界模型、具身智能等关键技术的竞赛中,一个能力正变得愈发核心 —— 高质量的 3D 场景生成 。过去三年,该领域的研究呈指数级增 长,每年论文数量几乎翻倍,反映出其在多模态理解、机器人、自动驾驶乃至虚拟现实系统中的关键地位。 技术路线 四大生成范式全面解析 早期的 3D 场景生成工作主要通过程序化生成实现。自 2021 年以来,随着生成式模型(尤其是扩散模型)的崛起,以及 NeRF、3D Gaussians 等新型 3D 表征的提 出,该领域进入爆发式增长阶段。方法日益多元,场景建模能力持续提升,也推动了研究论文数量的快速上升。这一趋势凸显出对对该领域进行系统化梳理与全 面评估的迫切需求。 论文标题:3D Scene Generation: A Survey 论文链接:https://arxiv.org/abs/2505.05474 精选列表:https://github.com/hzxie/Awesome-3D-Scene-Generation 在本综述中,研究团队构建了一套系统的技术分类体系,将现有 3D 场景生成方法划分为四大主流范式,每类方法均结合代表性工作进行了深入梳理。 这四大 ...
研究揭示灵长类尾状核在多感觉信息整合与抉择中的作用
Jing Ji Guan Cha Wang· 2025-06-10 08:25
经济观察网讯 据脑科学与智能技术卓越创新中心消息,在日常生活中,我们需要对外界多模态的感觉 信息实时采样,形成内在决定,并指导外在行为。这一高级认知功能被称为"感知抉择"。同时,神经计 算学家们提出"漂移扩散模型"或是大脑进行感知抉择的算法过程。其中,证据累积信号或对应抉择形 成。但是,这一信号所对应的神经元活动模式在很多皮层和皮层下脑区均被发现,形成看似表征冗余的 现象。目前,这些脑区在感知抉择中是相当程度的冗余或具有各自的特征尚不明晰。 近日,中国科学院脑科学与智能技术卓越创新中心研究员顾勇团队等在《自然-通讯》上,发表了题 为"灵长类尾状核在多模态抉择中的不同神经群体编码和因果作用"的研究论文。该研究通过训练猕猴完 成依赖多模态感觉刺激的抉择任务,并采用神经元胞外电生理记录、微电流刺激以及可逆性药物失活等 多种技术手段发现,皮层和皮层下脑区在多感觉抉择功能中的高维神经表征存在较大差异。同时,该研 究证明,尾状核区域对猕猴基于多感觉信息抉择行为具有因果贡献。 这一研究支持了尾状核在基于感知觉抉择的动物行为中发挥重要作用。 研究工作获得科学技术部和上海市的支持。 (a)向目标脑区注射可逆性失活药物的示意图; ...