Workflow
多模态大模型首次实现像素级推理!3B参数超越72B传统模型,NeurIPS 2025收录
量子位·2025-10-16 06:11

UniPixel团队 投稿 量子位 | 公众号 QbitAI 多模态大模型 首次 实现像素级推理,指代、分割、推理三大任务一网打尽! AI"看图说话"现在已经so easy,但即使是GPT-5、Gemini 2.5 Pro,也只能"看个大概",难以进行更精确的目标识别和推理。 对此,来自香港理工大学和腾讯ARC Lab的研究团队提出了首个统一的 像素级 多模态大模型—— UniPixel 。 话不多说,先来康康UniPixel的效果: 只需UniPixel一个模型,就能完成 目标指代 (Referring) 、 像素级分割 (Segmentation) 与 区域推理 (Reasoning) 三大任务,兼 具灵活性、精确性与可扩展性。 目前该论文已被NeurIPS 2025接收,而且代码、数据、Demo 全开源 ! 下面是更多详细信息。 UniPixel重新定义视觉推理 传统的视觉问答或描述系统,多数基于整体的图像或视频信息进行推理,缺乏对图中"具体区域"或"指定目标"的精确感知。 这不仅限制了其在医疗诊断、自动驾驶、人机交互等场景中的实际应用,也难以满足用户对"可控性"与"可解释性"的高阶需求。 以一个日常任 ...