Workflow
AIA损失
icon
Search documents
架构解耦是统一多模态模型所必须的吗?全新AIA损失:No
机器之心· 2025-12-02 05:07
近一年以来,统一理解与生成模型发展十分迅速,该任务的主要挑战在于视觉理解和生成任务本身在网络层间会产生冲突。早期的完全统一模型( 如 Emu3 )与 单任务的方法差距巨大,Janus-Pro、BAGEL 通过一步一步解耦模型架构,极大地减小了与单任务模型的性能差距,后续方法甚至通过直接拼接现有理解和生成模 型以达到极致的性能。 香港中文大学 MMLab 和美团的研究者 相信,在不久的将来统一模型的性能一定能够达到单任务的水平,但同时也引起了他们的思考, 目前通过拆解架构换取性 能提升的方式真的是正确的吗,它是否背离统一模型的初衷,它能够提升性能的内在原因又是什么,这种方式真的是统一模型必须的吗? 「统一模型的初衷」以及「 架构解耦的缺点」 统一理解生成模型的初衷是为了通过透明化、合理化的图文交错思考过程,提高单任务的性能 ,例如让模型走迷宫时统一模型可以生成每一步对应的图像,可以 在模型做数学题的时候给图像画上辅助线,或者是在生成一张图像的时候边画边思考有没有生成不合理的地方并且自动修正,这些都是 Uni-MMMU 等当前统一模 型基准所关注,也是它本身被独立成一个领域的初衷。 研究者首先通过研究不同架构的统 ...