流匹配

Search documents
ICCV 2025|降低扩散模型中的时空冗余,上交大EEdit实现免训练图像编辑加速
机器之心· 2025-07-05 02:46
本论文共同第一作者闫泽轩和马跃分别是上海交通大学人工智能学院 2025级研究生,以及香港科技大学 2024级博士生。目前在上海交通大学EPIC Lab进行科研实习,接受张林峰助理教授指导,研究方向是 高效模型和AIGC。 本文主要介绍张林峰教授的团队的最新论文: EEdit ⚡ : Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing。 这是首个用于加速匹配流模型上兼容多种引导方案的图像编辑框架。该框架速度提升显著,较原始工作 流可加速2.4倍;并且输入引导条件灵活,支持包括参考图像引导,拖拽区域引导,提示词引导的多种 编辑任务;该框架采用免训练的加速算法,无需微调和蒸馏。 该论文已经入选ICCV 2025。 论文链接: https://arxiv.org/pdf/2503.10270 论文已开源: https://github.com/yuriYanZeXuan/EEdit 最近,基于流匹配( Flow Matching)的扩散模型训练方式逐渐成为扩散模型的热点,以其优雅简洁 的数学形式和较短时间步的生成能力吸引 ...
何恺明CVPR 2025报告深度解读:生成模型如何迈向端到端?
自动驾驶之心· 2025-06-28 13:34
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 写在前面 在深度学习的历史长河中,AlexNet的横空出世曾彻底改写识别模型的命运——它让"逐层训练"成为过去式,端到端学 习从此一统江湖。而今天,当我们望向生成模型的浩瀚星空,扩散模型的多步迭代、自回归模型的时序依赖,是否仍 在重演"前AlexNet时代"的困局? 何恺明老师在 CVPR 2025 workshop上的最新分享 《Towards End-to-End Generative Modeling》 ,正以手术刀般的视 角剖开这场技术演进的历史轮回。他不仅回溯了识别与生成的"硬币双面"关系——一边是数据到语义的抽象流,一边 是噪声到实例的具象流,更带来了MeanFlow这把"瑞士军刀":用平均速度替代复杂积分,让ImageNet生成从250步迭 代压缩到1步完成,FID指标直逼传统多步模型的天花板。 这不禁让人思考:生成模型的"AlexNet时刻"是否已至? 今天,就让我们以何恺明老师的报告为锚点, 回顾 一下生成模型技术丛林的深度漫游,解锁那些正在重塑生成模型范 式的关键思想。 此外,借着这个话题,我们也同步 ...
ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成
机器之心· 2025-06-28 02:54
本文第一作者是西湖大学博士生冯睿骐,通讯作者为西湖大学人工智能系助理教授吴泰霖。吴泰霖实验 室专注于解决 AI 和科学交叉的核心问题,包含科学仿真、控制、科学发现。 在解决离线强化学习、图片逆问题等任务中,对生成模型的 能量引导 (energy guidance)是一种可 控的生成方法,它构造灵活,适用于各种任务,且允许无额外训练条件生成模型。同时 流匹配 (flow matching)框架作为一种生成模型,近期在分子生成、图片生成等领域中已经展现出巨大潜力。 然而,作为比扩散模型更一般的框架,流匹配允许从几乎任意的源分布以及耦合分布中生成样本。这在 使得它更灵活的同时,也使得能量引导的实现 与扩散模型有根本不同且更加复杂 。因此,对于流匹配 来说,如何得到具有理论保证的能量引导算法仍然是一个挑战。 针对这一问题,作者从理论上推导得到全新能量引导理论框架,并进一步提出多样的实际能量引导算 法,可以根据任务特性进行灵活选择。本工作的主要贡献如下: 本工作首次提出了流匹配能量引导理论框架。 在本框架指导下,本工作提出三大类无需训练的实用流匹配能量引导算法,并可将经典扩散模型 能量引导算法包含为特例。 本工作给出了 ...
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能/场景/方法论全解析~
自动驾驶之心· 2025-06-22 01:35
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨具身智能之心 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近很多同学询问π0、π0.5、A0都是啥?用在什么地方?能实现哪些功能?方法论有啥不同?前面 刚开始听到这些,也一头雾水,今天为大家梳理下。 π₀模型结构 原文:π0: A Vision-Language-Action Flow Model for General Robot Control π₀的核心架构基于 预训练视觉语言模型(VLM) 和 Flow Matching 技术,具体包含以下关键组件: VLM backbone 动作专家(Action Expert) 跨具身训练(Cross-Embodiment Training) 整合 7 种机器人、68 项任务、超 10,000 小时数据(含开源 OXE 数据集),通过权重调整处理不 同机器人的动作空间差异(如零填充低维动作向量)。 训练流程 基于 PaliGemma V ...
何恺明CVPR最新讲座PPT上线:走向端到端生成建模
机器之心· 2025-06-19 09:30
机器之心报道 编辑:张倩 生成模型会重现识别模型的历史吗? 今年的 CVPR 已经在美国田纳西州纳什维尔顺利闭幕。除了交流论文、互加好友,很多参会者还参加了个非常有意思的项目 —— 追星。 这个「星」自然是学术明星。从前方发来的实况来看,MIT 副教授何恺明可能是人气最高的那一个。他的讲座全场爆满,还有很多同学晒出了与恺明大神的合 影。 其实,这次现身 CVPR 会场的何恺明有着多重身份,包括但不限于最佳论文奖委员会成员、「Visual Generative Modeling: What's After Diffusion?」workshop 演讲嘉 宾等。 这个 workshop 聚焦的主题是扩散模型之后的视觉生成建模演进方向。 近年来,扩散模型迅速超越了先前的方法,成为视觉生成建模中的主导方法,广泛应用于图像、视频、3D 物体等的生成。然而,这些模型也存在一些显著的局限 性,例如生成速度较慢、生成过程中人类干预有限,以及在模拟复杂分布(如长视频)时面临挑战。 这个 workshop 旨在探索视觉生成建模中能够超越扩散模型的方法,何恺明在活动中做了主题为「Towards End-to-End Generat ...
对普通人最有用的一次!藏师傅教你用FLUX Kontext解决一切图片问题
歸藏的AI工具箱· 2025-06-03 06:53
长时间没消息的黑森林工作室憋了个大的,发布了生成式流匹配模型 FLUX Kontext。 这套模型最强的地方就是可以对图片进行编辑,但是不会影响没有编辑的地方。 而且还支持多张图片参考生成新的图像,依然能保持需要参考内容的高度一致性。 直接替代了很多原来需要 PS (美图秀秀、醒图)才能做的需求 , 原来需要吭哧瘪肚 P 很久的图,现在说句 话就行。 给图片去水印,各种复杂水印都能解决 优化自己照片上身体的瑕疵,比如瘦脸、瘦腿、瘦肚子、让自己的肌肉变大 一键生成电商商品展示图,如果想要展示朋友送的礼物也可以用 去掉景区照片里面各种无关的其他游客,让你独享整个风景 将真实照片转换成各种动漫风格,或者反过来 修改海报或者图片上的文字 修改图片上的任何小的元素,比如让自己戴上墨镜或者更换餐桌上的甜点 给图片更换背景,让自己在快速时空旅行 将多张图片的元素整合到一张图片里面,比如让一张图片的模特拿上另一张图的产品 这种修改需要注意的是优势 Kontext 的分辨率是固定的,画全身照的时候面部有可能会变糊,因为像素区域 太小的原因。 我这几天也探索了很多这个模型的用法,这次不会以测试的形式展示了, 全是具体用法,让你告 ...
何恺明团队又发新作: MeanFlow单步图像生成SOTA,提升达50%
机器之心· 2025-05-21 04:00
机器之心报道 基于这一基本概念,本文训练了一个神经网络来直接建模平均速度场,并引入损失函数来奖励网络满足平均速度和瞬时速度之间的内在关系。 本文进一步证明,该框架可以自然地整合无分类器引导(CFG),并且在采样时无需额外成本。 MeanFlow 在单步生成建模中表现出了强大的性能。在 ImageNet 256×256 数据集上,仅使用 1-NFE(Number of Function Evaluations)就达到了 3.43 的 FID 分数。 这一结果显著优于之前同类方法的最佳水平,相对性能提升达到 50% 到 70%(见图 1)。 编辑:陈萍 这段时间,大神何恺明真是接连不断地发布新研究。 这不,5 月 19 日,他又放出一篇新作!作者团队来自 CMU 以及 MIT。 文章提出了一种名为 MeanFlow 的单步生成建模框架,通过引入平均速度(average velocity)的概念来改进现有的流匹配方法,并在 ImageNet 256×256 数据集上取 得了显著优于以往单步扩散 / 流模型的结果,FID 分数达到 3.43,且无需预训练、蒸馏或课程学习。 生成模型旨在将先验分布转换为数据分布。流匹配 ...
首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o
机器之心· 2025-05-13 07:08
本文由香港中文大学与快手可灵等团队联合完成。第一作者为香港中文大学 MMLab 博士生刘杰,他的研究方向为强化学习和生成模型,曾获 ACL Outstanding Paper Award。 流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能,已成为图像生成(Stable Diffusion, Flux)和视频生成(可灵,WanX,Hunyuan) 领域最先进模型的训练方法。然而,这些最先进的模型在处理包含多个物体、属性与关系的复杂场景,以及文本渲染任务时仍存在较大困难。与此同时,在 线强化学习因其高效探索与反馈机制,在语言模型领域取得显著进展,但在图像生成中的应用仍处于初步阶段。 为此,港中文 MMLab、快手可灵、清华大学等团队联合提出 Flow-GRPO,首个将在线强化学习引入 Flow Matching 模型的工作 。在 Flow-GRPO 加 持下,SD3.5 Medium 在 GenEval 基准测试中的准确率 从 63% 提升到 95%,组合式生图能力超越 GPT4o ,这说明 流匹配模型还有很大提升空间 , Flow-GRPO 的成功实践,为未来利用 RL 进一步解锁和增强各类流匹配生 ...