腾讯纯文本LLM训视觉encoder,拿捏图表长视频,达到开源小模型SOTA!
TENCENTTENCENT(HK:00700) 量子位·2026-03-19 01:02

打破多模态 视觉+语言 拼接套路! 腾讯开源Penguin-VL,直接用纯文本LLM训视觉编码器。 Penguin-VL团队 投稿 量子位 | 公众号 QbitAI 这项研究跳出了先有传统视觉 backbone,再接语言模型的常规路径,直接从text-only LLM初始化vision encoder。 并在2B/8B紧凑参数规模下的文档理解、长视频时序定位等复杂任务中表现出极强竞争力。 从LLM出发的视觉编码器重构 如果把这两年的多模态模型拆开看,一个很有意思的现象是: 大家在语言模型上卷得很凶,但到了vision encoder这一层,路线却出奇一致。 很多VLM最后都会回到那套熟悉配方,先拿CLIP、SigLIP这类通过对比学习训出来的视觉模型做encoder,再接上LLM往下训。 这条路线当然强,也足够成熟。 但Penguin-VL团队想问的,不是"这条路能不能走",而是"它是不是复杂视觉理解最合适的起点"。 因为对比学习最擅长的,本来就是判别、检索和图文匹配。 它会主动把图像压进一个更适合分类和对齐的语义空间里。 可一旦任务变成文档阅读、图表理解、细粒度描述、多图关系判断,甚至长视频里的时间定位,模 ...

腾讯纯文本LLM训视觉encoder,拿捏图表长视频,达到开源小模型SOTA! - Reportify