VLM与扩散模型深度整合，图像理解生成编辑三合一模型登场，权重数据训练流程全开源

Nexus-Gen团队投稿量子位 | 公众号 QbitAI VLM和扩散模型被整合到一起了。 ModelScope（魔搭）团队发布 Nexus-Gen V2 ，一个同时支持图像理解、生成和编辑的统一模型，而且模型权重、训练流程和数据集全部开源。这事儿有多重要？今年以来，GPT-4o-Image、Gemini、Blip3O这些大厂的统一模型都在证明一件事：把图像理解和生成能力塞进一个模型，不仅仅是为了省事，更是因为两种任务的有机结合能带来意想不到的效果。魔搭团队其实早在五月就发布了V1版本，但他们很快发现了问题：图像理解能力相比原始VLM掉点严重，图像生成对提示词太敏感，编辑细节也保持不好。于是他们憋了几个月大招，从三个方向全面优化，终于拿出了这个V2版本。在图像理解上，优化了模型的训练策略，极大程度地保留了VLM的理解能力；在图像生成上，对所有图像生成样本进行了重标注，采用长短描述同时标注并采样选取的策略，提升了图像生成的鲁棒性，同时加入了中文标注样本，支持了基于中文的图像生成。在图像编辑上，团队系统性地研究了图像重建效果与图像编码token数量之间的关系，并设计了全新的编辑方案。经过 ...