“几乎所有大模型,视觉能力都不如3岁小孩”
Guan Cha Zhe Wang·2026-01-12 12:21
(文/万肇生 编辑/张广凯) 大模型的视觉处理能力虽不如语言推理那样惊艳,但一项最新的测试结果,仍显得十分残酷。 1月12日,红杉中国xbench携手UniPatAI团队对外发布全新多模态理解评测集BabyVision,旨在精准测评 大模型的核心视觉能力。 UniPatAI发布的技术论文显示,该评测集首轮测试的结果中,当前绝大多数顶尖多模态大模型的视觉任 务表现,都要显著低于 3 岁儿童水平,仅仅有一款模型勉强超过3岁基线。 而出现体感上的如此巨大的反差,倒也好理解,主要是由于日常中模型强大的语言推理能力,掩盖了其 视觉信息处理能力的不足。 通常情况下,大模型在面对图像问题时,会使用文字对问题进行描述。虽然视觉信息转为文字描述有局 限性,但模型会通过强大的语言推理能力,来理解并解决视觉问题。然而需要注意的是,这并不是真正 的视觉能力,而是一种基于文字信息的推理能力,因此当大模型一旦失去语言能力的加持,其在视觉信 息处理中,短板就暴露无遗。 几乎在测模型都不如3岁小孩 基于此,UniPatAI团队成员们为用于首轮测试的BabyVision-Mini,设计了包含20道视觉中心任务,并严 格控制语言依赖,所有题目答 ...