Workflow
全局原生分辨率编码(GNE)
icon
Search documents
全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案
机器之心· 2025-12-09 03:17
随着多模态大模型(MLLMs)在各类视觉语言任务中展现出强大的理解与交互能力,如何高效地处理原生高分辨率图像以捕捉精细的视觉信息,已成为提升模型 性能的关键方向。 然而,主流的视觉编码范式往往难以兼顾性能与效率:基于切片的编码方法虽能降低计算开销,却牺牲了全局上下文感知能力;而全局原生分辨率编码在提升整 体性能的同时,又带来了巨大的计算负担。同时,现有的视觉压缩策略与特征提取过程相对独立,难以在编码早期有效控制信息冗余,缺乏一个兼顾细粒度建模 与计算效率的统一架构。 针对如何在高清原生分辨率下,保持图像全局理解能力的同时,还能快速推理这一核心问题,来自清华大学、中科院的研究团队正式发布 LLaVA-UHD v3 ! LLaVA-UHD-v3 提出了全新的渐进式视觉压缩框架 —— Progressive Visual Compression(PVC) ,由 Refined Patch Embedding(RPE) 与 Windowed Token Compression(WTC) 两个核心组件构成。该框架在保持全局语义一致性的前提下,显著减少视觉 Token 数量,从根本上提升原生高分辨率视觉编码的效率。依 论 ...