Workflow
大模型角力视觉推理,推理AI新时代来临
2 1 Shi Ji Jing Ji Bao Dao·2025-07-03 05:11

输入一个PPT,自动生成汇报内容、演讲稿;输入一段"苏超"视频,得到一段足球解说……如今的大语 言模型不只会看文字,还会看图片、视频。 7月2日,智谱发布并开源视觉语言大模型GLM-4.1V-Thinking。这款通用推理型大模型支持图像、视 频、文档等多模态输入,可用于复杂认知任务。 "就像人一样。眼睛看到了复杂的视觉信号,不光是简单的信号接收,还可以根据视觉信号进一步推 理,理解复杂的物理世界。"在现场演示时,智谱CEO张鹏介绍道,智谱基于预训练构造了视觉理解模 型,监督微调使其初步具备推理能力,再基于深度学习大幅提高推理能力,在业内首次把推理能力和视 觉理解能力有机结合在一起。 人类不仅希望AI能思考,还希望AI能执行——通过自主智能体的方式,现有的大模型能力能转化成真 正的生产力。 此前,大模型可以用于代码生成;而视觉推理能力使得AI能够"看懂"和"理解"视觉信息,比如用户界面 (UI)的设计图、原型图甚至屏幕截图,可以辅助产品经理生成代码重构用户界面。 "视觉推理能力还可以用于智能体,让它理解GUI(图形用户界面),比如理解手机、PC上复杂的用户 操作界面,形成精准的操作逻辑。"据张鹏介绍,GLM- ...