Workflow
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
量子位·2025-10-03 04:19

这主要源于现有模型在物体属性理解上的不足,以及细粒度感知能力的局限。 为缓解上述问题,华中科技大学团队和金山办公团队联合提出了两个核心模块: 语义增强特征提取器 (SEFE) 和 交错局部视觉耦合 (ILVC) 。 前者融合语义特征与像素级特征,提升物体属性推理能力,从而获得更精确的分割结果。 后者基于分割掩码提取局部特征后,自回归生成局部描述,为模型提供细粒度监督,从而有效减少理解幻觉。 最终,研究团队 构建了在分割和理解两项任务上均取得SOTA的多模态大模型LIRA 。 LIRA团队 投稿 量子位 | 公众号 QbitAI 多模态大模型需要干的活,已经从最初的文生图,扩展到了像素级任务 (图像分割) 。 不过,无论是OMG-LLaVA,还是提出了embedding-as-mask范式的LISA (CVPR 2024) ,都还存在分割结果不够精确,以及理解过程中 出现幻觉两大痛点。 与InternVL2相比,LIRA在保持理解性能的同时,额外支持图像分割任务;与OMG-LLaVA相比,LIRA在图像分割任务上平均提升8.5%,在 MMBench上提升33.2%。 目前,LIRA项目已被ICCV 2025录用 ...