美团提出全新多模态统一大模型STAR,GenEval突破0.91,破解“理解-生成”零和困局
机器之心·2026-02-04 11:20

近日,美团推出全新多模态统一大模型方案 STAR(STacked AutoRegressive Scheme for Unified Multimodal Learning),凭借创新的 "堆叠自回归架构 + 任务递进训 练" 双核心设计,实现了 "理解能力不打折、生成能力达顶尖" 的双重突破。 在 GenEval(文本 - 图像对齐)、DPG-Bench(复杂场景生成)、ImgEdit(图像编辑)等 benchmark 中,STAR 实现了 SOTA 性能;用最简训练逻辑与紧凑模型设 计让统一多模态大模型真正走向工业级落地。 论文标题:STAR: Stacked AutoRegressive Scheme for Unified Multimodal Learning 理解任务的核心是 "语义对齐与逻辑推理"—— 比如识别图像中的物体、回答图文相关问题,需要模型精准捕捉跨模态的语义关联;而生成任务的核心是 "像素保 真与创意表达"—— 比如根据文本描述生成高清图像,需要模型兼顾细节还原与内容连贯性。两者的优化目标、特征空间显著不同,导致联合训练陷入零和博弈: 强化生成能力,理解准确率会下降;深耕理解任务,生 ...