Workflow
通用视觉模型
icon
Search documents
大模型时代,通用视觉模型将何去何从?
机器之心· 2025-07-02 00:54
正因如此,在这个多模态模型席卷科研与工业的新时代,回顾并总结纯视觉范式下的通用视觉模型研究 仍然是一件十分有意义的事情。 清华大学自动化系鲁继文团队 最近发表于 IJCV 的综述论文系统梳理 了该方向的研究进展,涵盖输入统一方法、任务通用策略、模型框架设计、模型评测应用等内容,希望 能为未来视觉模型的发展提供参考与启发。 然而,随着大语言模型 LLM 的迅猛发展,研究热点已经悄然发生转移。如今,多模态大模型兴起,视 觉被看作是语言模型众多输入模态中的一种,视觉模态数据被离散化为 Token,与文本一起被统一建 模,视觉的「独立性」正在被重新定义。 在这种趋势下,传统意义上以视觉任务为核心、以视觉范式为驱动的通用视觉模型研究,似乎正在逐渐 被边缘化。然而,我们认为视觉领域仍应保有自己的特色和研究重点。与语言数据相比,视觉数据具有 结构化强、空间信息丰富等天然优势,但也存在视觉模态间差异大、难替代的挑战。例如:如何统一处 理 2D 图像、3D 点云和视频流等异质输入?如何设计统一的输出表示来同时支持像素级分割和目标检 测等不同任务?这些问题在当前的多模态范式中并未被充分解决。 论文标题: Vision Gener ...