是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了
机器之心·2025-08-12 03:10
机器之心报道 作者:张倩、陈陈 光看图,你能猜出这是哪儿吗? 当同事出差回来扔到群里这么一张图,我们也是猜了半天,但毫无头绪。 直到另一位同事把图扔给智谱的新模型 ——GLM-4.5V,这个谜团才解开。 把照片截图传给 GLM-4.5V (避免模型利用照片的 EXIF 元数据),它很快就推理出了结果。 没错,图里的地方是多瑙河畔。尽管同事拍照的角度和风格和小某书上的精美照片大相径庭,但智谱的新模型还是通过深度分析给出了准确答案。 你可能要说,这个能力,OpenAI 的 o3、o4 mini 早就有了,没什么稀奇。但如果我告诉你,这个模型是开源的呢? 听说,它还参加了大名鼎鼎的「图寻」游戏全球积分赛,和里面的两万多名人类玩家对战了 7 天。 出于好奇,我们打开这个游戏玩了玩,结果一上来就懵了:这比赛只给 3 分钟时间思考,碰到带地标的还好,像这种普通的街道、山路,不积累点人文、地理知 识,连大概范围都不好确定,更别提按照题目要求定位出经纬度了。 但就是在这样的赛制里比了 7 天之后, GLM-4.5V 击败了 99.99% 的人类玩家 。 这个游戏玩得好意味着什么?意味着 GLM-4.5V 拥有了超强的视觉推理 ...