腾讯纯文本LLM训视觉encoder，拿捏图表长视频，达到开源小模型SOTA！

打破多模态视觉+语言拼接套路！腾讯开源Penguin-VL，直接用纯文本LLM训视觉编码器。 Penguin-VL团队投稿量子位 | 公众号 QbitAI 这项研究跳出了先有传统视觉 backbone，再接语言模型的常规路径，直接从text-only LLM初始化vision encoder。并在2B/8B紧凑参数规模下的文档理解、长视频时序定位等复杂任务中表现出极强竞争力。从LLM出发的视觉编码器重构如果把这两年的多模态模型拆开看，一个很有意思的现象是：大家在语言模型上卷得很凶，但到了vision encoder这一层，路线却出奇一致。很多VLM最后都会回到那套熟悉配方，先拿CLIP、SigLIP这类通过对比学习训出来的视觉模型做encoder，再接上LLM往下训。这条路线当然强，也足够成熟。但Penguin-VL团队想问的，不是"这条路能不能走"，而是"它是不是复杂视觉理解最合适的起点"。因为对比学习最擅长的，本来就是判别、检索和图文匹配。它会主动把图像压进一个更适合分类和对齐的语义空间里。可一旦任务变成文档阅读、图表理解、细粒度描述、多图关系判断，甚至长视频里的时间定位，模 ...