Pixel Mean Flow(pMF)
Search documents
何恺明带大二本科生颠覆扩散图像生成:扔掉多步采样和潜空间,一步像素直出
量子位· 2026-02-02 05:58
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 何恺明,再次出手精简架构。 新方法 Pixel Mean Flow(pMF) ,突破传统扩散模型/流模型限制。 两大传统组件 多步采样和潜空间都被砍了 ,现在只需一步,直接在像素空间生成图像。 在ImageNet 256×256分辨率上,pMF达到了2.22 FID;512×512分辨率上则是2.48 FID。这是目前单步、无潜空间扩散模型在该基准上取 得的最佳成绩之一。 砍掉扩散模型的两大件 现代扩散模型生成图像,一直离不开多步采样和潜空间编码。 多步采样意味着生成一张图需要跑几十甚至上百次神经网络,潜空间则需要先把图像压缩到一个低维空间再进行操作。两者的共同目的是把一 个极度复杂的生成问题拆解成若干个相对简单的子问题。 近年来,研究社区分别在这两个方向上取得了进展: 一致性模型(Consistency Models)和何恺明团队2025年提出的MeanFlow在少步、单步采样上持续突破。 何恺明团队2026年1月提出的JiT(Just image Transformers)则证明了在原始像素空间做扩散模型的可行性。 但把这两条路合到一起,难度陡增。 少 ...