Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解
机器之心·2025-11-16 04:01
上海人 工智能实 验室 推出了一款革新的多模态生成理解一体化的扩散语言模型 —— Lumina-DiMOO 。基于离散扩散建模(Discrete Diffusion Modeling), Lumina-DiMOO 打破了多模态任务之间的壁垒,在同一离散扩散框架下,完成从 文本→图像、图像→图像、图像→文本的全栈能力闭环。 从 Chameleon 到 Lumina-mGPT,再到 Janus-Pro—— 主流 "多模态统一模型",几乎都基于 自回归(AR)架构。这些模型的架构存在显著缺陷: 1. 生成太慢:逐 token 生成,导致图像生成通常需要几分钟; 2. 生成质量受限:图像细节的表现力较弱,尤其是在高分辨率生成时,精细度无法保证; 3. 任务间无法无缝衔接:多模态的生成和理解任务往往分开处理,导致模型的通用性和效率受到制约。 过 去:自回归生成 的瓶颈 然而,Lumina-DiMOO 采用了纯离散扩散框架,彻底解决了上述问题。在这个全新的架构中,我们通过并行化的双向注意力机制和灵活的采样策略,实现了跨多 任务的高效融合,不仅加速了生成过程,还提升了生成质量。 现在:扩散语言模型的崛起 Lumina-Di ...