BabyVision评测集
Search documents
最新测评集:几乎所有大模型,视觉能力都不如3岁小孩
Guan Cha Zhe Wang· 2026-01-12 12:30
UniPatAI发布的技术论文显示,该评测集首轮测试的结果中,当前绝大多数顶尖多模态大模型的视觉任务表现,都要显著低于 3 岁儿童水平,仅仅有一款模 型勉强超过3岁基线。 而出现体感上的如此巨大的反差,倒也好理解,主要是由于日常中模型强大的语言推理能力,掩盖了其视觉信息处理能力的不足。 通常情况下,大模型在面对图像问题时,会使用文字对问题进行描述。虽然视觉信息转为文字描述有局限性,但模型会通过强大的语言推理能力,来理解并 解决视觉问题。然而需要注意的是,这并不是真正的视觉能力,而是一种基于文字信息的推理能力,因此当大模型一旦失去语言能力的加持,其在视觉信息 处理中,短板就暴露无遗。 几乎在测模型都不如3岁小孩 基于此,UniPatAI团队成员们为用于首轮测试的BabyVision-Mini,设计了包含20道视觉中心任务,并严格控制语言依赖,所有题目答案均需完全依靠视觉信 息得出。同时,团队还分别组织了3岁、6岁、10岁、12岁四个年龄段的儿童,作为对照组,进行测试。 (文/万肇生 编辑/张广凯) 大模型的视觉处理能力虽不如语言推理那样惊艳,但一项最新的测试结果,仍显得十分残酷。 1月12日,红杉中国xbenc ...