扩散模型

Search documents
冲击自回归,扩散模型正在改写下一代通用模型范式
机器之心· 2025-06-04 01:59
机器之心报道 编辑:Panda 上个月 21 号,Google I/O 2025 开发者大会可说是吸睛无数,各种 AI 模型、技术、工具、服务、应用让人目不暇接。在这其中, Gemini Diffusion 绝对算是最让 人兴奋的进步之一。从名字看得出来,这是一个采用了扩散模型的 AI 模型,而这个模型却并非我们通常看到的扩散式视觉生成模型,而是一个地地道道的语言模 型! Google DeepMind 表示,他们正在使用「扩散」技术来探索新的语言模型方向,从而为用户提供更强大的控制力、创造力和文本生成速度。 从演示效果看,Gemini Diffusion 也确实快 ——「生成速度是我们迄今为止最快模型的五倍,同时还具有相当的编程性能。」 那么,扩散模型为什么会这么快呢?这与其工作原理有关。简单来说,不像自回归语言模型那样直接预测下个文本 token,扩散语言模型(dLLM)是通过逐步细 化噪声的方式来学习生成输出。这意味着它们不仅可以快速迭代,还能在生成过程中进行纠错。这些特性有助于它们更好地应对编辑等任务,包括在数学和代码 环境中。 用户输入「 Explain what artificial intell ...
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa
机器之心· 2025-05-30 04:16
机器之心报道 编辑:Panda 近段时间,已经出现了不少基于扩散模型的语言模型,而现在,基于扩散模型的视觉-语言模型(VLM)也来了,即能够联合处理视觉和文本信息的模型。今天我 们介绍的这个名叫 LaViDa ,继承了扩散语言模型高速且可控的优点,并在实验中取得了相当不错的表现。 现目前,几乎所有流行的 VLM 都是基于大型语言模型(LLM)构建的,而这些模型采用的范式是自回归(AR),即按照从左到右的顺序逐一生成 token。 例如,生成一首每行都以特定音节开头的诗歌,或从预定义 JSON 格式的图像中提取结构化信息 —— 这些任务通常需要模型填充或协调整个序列中的内容。即使 使用精心设计的提示词和演示,自回归模型仍然难以稳定地满足此类约束。 近段时间,离散的扩散模型(DM)开始崛起,甚至被许多人认为是自回归 LLM 的一种有力替代,比如我们曾报道过的 首个 8B 扩散大语言模型 LLaDA 、 扩散 推理模型 Dream 7B 以及 首个商业级扩散 LLM Mercury 。 不同于自回归 LLM,扩散模型是将文本生成视为在离散 token 上的扩散过程。会有一个前向过程逐渐将离散文本 token 序列退 ...
12秒生成1万token!谷歌推出文本「扩散模型」Gemini Diffusion,研究员:演示都得降速看
量子位· 2025-05-21 10:39
谷歌又放新大招了,将图像生成常用的"扩散技术"引入语言模型, 12秒能生成1万tokens 。 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 什么概念?不仅比Gemini 2.0 Flash-Lite更快。 甚至需要不得不在演示过程中 放慢 视频的速度,才能看清生成过程。 这是Google DeepMind推出 Gemini Diffusion :不同于以往大多数语言模型"从左到右"预测文本的生成方式,而是 通过 逐步优化噪声来学习生成输出 。 传统的自回归模型是根据已生成的词序列 逐步预测下一个词 ,每次只能生成一个词或一个token,这种顺序过程很 慢,并且会限制输出的质量和一致性。 而扩散模型的特点则是通过 逐步细化噪声学习生成 ,这种特点会大大提高生成速度,并且减少训练的不确定性。 与以往大多数基于自回归的语言模型不同,Gemini Diffusion在 语言模型中引入了"扩散"技术 ,它不是直接预测文 本,而是通过 逐步细化噪声来学习生成输出 。 这种技术能够让模型在生成过程中 快速迭代 ,并在生成过程中进行 错误纠正 。 Gemini Diffusion就是利用了扩散模型这一优势,将文本生 ...
何恺明等新作大道至简,瞬时速度改为平均速度,一步生成表现提升70%
量子位· 2025-05-21 06:31
白交 发自 凹非寺 量子位 | 公众号 QbitAI 何恺明等团队新作新鲜出炉,再次大道至简—— 他们引入平均速度,实现「一步生成」新SOTA。 CMU博士生耿正阳一作,何恺明的学生邓明扬、白行健参与。 他们提出的模型是从头开始训练的,没有任何预训练、蒸馏或课程学习,最终实现了3.43的FID值,明显优于之前最先进的一步扩散/流模型。 一步生成框架:引入平均速度 一次生成模型,指的是只需一步计算就产生高质量的结果,而无需多次迭代。 团队提出了一个原则性强且有效的单步生成框架MeanFlow。其核心思想是引入平均速度的概念来表征流场,这与流匹配方法所模拟的瞬时速 度截然不同。 △ 流匹配的速度场,瞬时速度 平均速度被定义为位移与时间间隔的比率,位移由瞬时速度的时间积分给出。 根据这一定义,这说明平均速度和瞬时速度之间定义明确的内在联系,这自然成为指导网络训练的原则基础。 我们的方法被称为MeanFlow模型,它自成一体,无需预先训练、提炼或课程学习。 演示1:通过jvp计算只需要一次后向传递,类似于神经网络中的标准反向传播,开销不到总训练时间的20%。 它在从零开始训练的ImageNet 256×256上通过1 ...
TransDiffuser: 理想VLA diffusion出轨迹的架构
理想TOP2· 2025-05-18 13:08
Diffusion(扩散模型)是一种生成数据的模型,除了Diffusion外,还有其他生成模型,比如GAN(生成对 抗网络)、VAE(变分自编码器)等。不同的生成模型在核心思想与生成数据的方法上有区别。 Diffusion的核心思想是通过加噪声(Forward Process)和去噪(Reverse Process)的过程来学习数据的分 布。可以想象成一种逆向拼图: 先把一张完整的图片或其他数据打乱成一片模糊,再通过学习如何一 步步还原它。 去噪的过程是训练一个神经网络,让它去预测每一步的噪声,然后去除噪声,生成目标数据。 贾鹏25年3月英伟达GTC上关于理想VLA diffusion出轨迹的表述 VLM是由端到端+VLM两个模型组成的,VLM的两个快慢系统都是输出的轨迹。VLA是一个模型具 备快慢思考能力。 读者不用被里面的名词吓着,本文经过认真思考,并结合预期的大多数读者的知识储备,做了不少专 门解释,逻辑链很清晰,多读几遍能有收获的。 本文结构:先解释什么是Diffusion,再分享贾鹏25年3月英伟达GTC上关于理想VLA diffusion出轨迹 的表述,最后分享TransDiffuser的架构细节 ...
CVPR 2025 | 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法
机器之心· 2025-05-03 04:18
扩散模型(Diffusion Models, DMs)如今已成为文本生成图像的核心引擎。凭借惊艳的图像生成能力,它们正悄然改变着艺术创作、广告设计、乃至社交媒体内容 的生产方式。如今,只需一段文字,就能生成一张极具风格的个性化头像,已经不再稀奇。 但,如果我们想要的不只是 "一个人" 的照片呢? 在朋友缺席的聚会中,我们是否可以 "补全" 一张大家都在的合影?在广告场景中,我们是否可以自由组合多位虚拟角色,讲述一个多人物的故事?个性化的多人 图像生成正成为新的想象力疆域。但同时,它也带来了前所未有的技术挑战。 其中最棘手的,就是 身份特征泄露(ID leakage) —— 明明是两个人,却因为特征混淆,生成出面容 "融合" 的人脸,令人难以分辨谁是谁。更进一步,用户往往 还希望可以 精确指定每个人的位置和动作 ,实现更自然真实的构图和创意有趣的互动。可一旦位置错乱,原本的故事就变了味儿。 从单人走向多人,挑战也随之升级 如今,个性化单人照片生成已能达到令人惊艳的视觉效果。但当我们尝试生成多人互动照片时,问题便不再简单。 本文第一作者为密歇根州立大学计算机系博士生张益萌,系 OPTML 实验室成员,指导老师为刘 ...
阶跃星辰开源图像编辑模型Step1X-Edit;阿里巴巴AI旗舰应用夸克发布全新“AI相机”丨AIGC日报
创业邦· 2025-04-27 23:48
扫码订阅 AIGC 产业日报, 3.【Meta Token-Shuffle登场:自回归模型突破瓶颈,可AI生成 2048×2048 分辨率图像】报道称Meta AI创 新推出Token-Shuffle,目标解决自回归(Autoregressive,AR)模型在生成高分辨率图像方面的扩展难 题。在语言生成方面,自回归模型大放异彩,近年来也被广泛探索用于图像合成,然而在面对高分辨率 图像时,AR模型遭遇瓶颈。不同于文本生成仅需少量token,图像合成中高分辨率图片往往需要数千个 token,计算成本随之暴增。这让许多基于 AR 的多模态模型只能处理低中分辨率图像,限制了其在精细 图像生成中的应用。尽管扩散模型(Diffusion Models)在高分辨率上表现强劲,但其复杂的采样过程和 较慢的推理速度也存在局限。(搜狐) 4.【Adobe发布Firefly Image Model 4模型:AI生图再升级】Adobe发布博文,推出Firefly Image Model 4和 Firefly Image Model 4 Ultra两款文本生成图像AI模型,并预告针对Photoshop和Illustrator的Crea ...
ICLR 2025 | 无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM
机器之心· 2025-04-27 10:40
论文有两位共同一作。郑凯文为清华大学计算机系三年级博士生,何冠德为德州大学奥斯汀分校(UT Austin)一年级博士生。 扩散模型(Diffusion Models)近年来在生成任务上取得了突破性的进展,不仅在图像生成、视频合成、语音合成等领域都实现了卓越表现,推动了文本到图像、 视频生成的技术革新。然而,标准扩散模型的设计通常只适用于从随机噪声生成数据的任务,对于图像翻译或图像修复这类明确给定输入和输出之间映射关系的 任务并不适合。 为了解决这一问题,一种名为 去噪扩散桥模型 (Denoising Diffusion Bridge Models, DDBMs)的变种应运而生。DDBM 能够建模两个给定分布之间的桥接过程, 从而很好地应用于图像翻译、图像修复等任务。然而,这类模型在数学形式上依赖 复杂的常微分方程 / 随机微分方程 ,在生成高分辨率图像时通常需要 数百步的 迭代 , 计算效率低下 ,严重限制了其在实际中的广泛应用。 相比于标准扩散模型,扩散桥模型的推理过程 额外涉及初始条件相关的线性组合和起始点的奇异性 ,无法直接应用标准扩散模型的推理算法。为此,清华大学朱 军团队提出了一种名为 扩散桥隐式模 ...
“计算机视觉被GPT-4o终结了”(狗头)
量子位· 2025-03-29 07:46
一个男友回头表情包,可以秒变 语义分割 图。 也可以秒变 深度图 。 这下不光上一代AI画图工具和设计师,计算机视觉研究员也哭晕在厕所了。 这是NASA前工程师测试特斯拉自动驾驶系统的伪装"隐形墙",在GPT-4o面前也无所遁形。 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 一夜之间,CV被大模型"解决"了 (狗头) 。 万物皆可吉卜力之后,GPT-4o原生多模态图像生成更多玩法被开发出来。 这下OpenAI应用研究主管 Boris Power 已经把脑筋动到了自动驾驶,称只需要训练最强大的基础模型,然后微调。 3D渲染领域也惨遭毒手,GPT-4o可以生成 PBR材质 (基于物理渲染的材质),纹理、法线贴图等直接来一套。 对于这些能力,也有人认为没什么大不了的,Stable Diffusion + ControlNet就可以 全部实现。 但不可否认,靠扩大基础模型规模就能做到,也是令人意想不到的。 GPT-4o图像生成是自回归模型 这波GPT-4o原生图像生成的技术细节,OpenAI是一点也没有公布(粗节也没有公布)。 但还是有人从System Card中发现了蛛丝马迹。 与DALL·E是一个扩散模 ...
活动报名:我们凑齐了 LCM、InstantID 和 AnimateDiff 的作者分享啦
42章经· 2024-05-26 14:35
清华交叉信息研究院硕士,研究方向为多模态生成,扩散模型,一致性模型 代表工作有 LCM, LCM-LoRA, Diff-Foley · 王浩帆 硕士毕业于 CMU,InstantX 团队成员,研究方向为一致性生成 代表工作有 InstantStyle, InstantID 和 Score-CAM · 杨策元 42章经 AI 私董会活动 文生图与文生视频 从研究到应用 分享嘉宾 · 骆思勉 LCM、InstantID 和 AnimateDiff 这三个研究在全球的意义和影响力都非常之大,可以说是过去一整年里给文生图和文生视频相关领域带来极大突破或应用 落地性的工作,相信有非常多的创业者都在实际使用这些作品的结果。 这次,我们首次把这三个工作的作者凑齐,并且还请来了知名的 AI 产品经理 Hidecloud 做 Panel 主持,届时期待和数十位 AI 创业者一起交流下文生图、文生视频 领域最新的研究和落地。 PhD 毕业于香港中文大学,研究方向为视频生成 6/01 | 13:00-14:00 (周六) 北京时间 美西时间 5/31 | 22:00-23:00 (周五) 活动形式 线上(会议链接将一对一发送) ...