视觉推理

Search documents
智谱再获10亿融资,推出会看“苏超”的开源新模型
Guan Cha Zhe Wang· 2025-07-03 10:30
(文/陈济深 编辑/张广凯) 7月2日,智谱开放平台产业生态大会在上海浦东张江科学会堂举办。智谱CEO张鹏在主题演讲中发布了智谱携手生态伙伴迈向AGI的两项最新成果:一是开 源发布新一代通用视觉语言模型GLM-4.1V-Thinking,以推理能力为核心突破,刷新10B级别多模态模型性能上限;二是MaaS全新上线Agent聚合平台「应用 空间」,全面激活行业场景中的AI能力,联动Z基金启动Agent开拓者数亿元专项扶持计划。 值得注意的是,本次智谱发布的新模型不仅可以输入一个PPT后自动生成汇报内容、演讲稿;甚至输入一段"苏超"视频,还能得到一段足球解说……如今的 大语言模型不只会看文字,还会看图片、视频。 "AGI(通用人工智能)可以分为5个层次:L1是预训练大模型,L2是对齐、推理,L3是自我学习,L4是自我认知,L5是意识智能。"张鹏指出,视觉推理能 力是L3中很重要的能力。 人类的语言能力、视觉能力、语音能力、行动能力、思考能力、推理能力由大脑统一完成,而AI,正在逐一破解这些能力的密码。 对于打造万卡集群,孙颖解释道:"万卡集群"指的是由上万张如英伟达的H100这样的高性能AI计算加速卡组成的超级计 ...
大模型角力视觉推理,推理AI新时代来临
2 1 Shi Ji Jing Ji Bao Dao· 2025-07-03 05:11
输入一个PPT,自动生成汇报内容、演讲稿;输入一段"苏超"视频,得到一段足球解说……如今的大语 言模型不只会看文字,还会看图片、视频。 7月2日,智谱发布并开源视觉语言大模型GLM-4.1V-Thinking。这款通用推理型大模型支持图像、视 频、文档等多模态输入,可用于复杂认知任务。 "就像人一样。眼睛看到了复杂的视觉信号,不光是简单的信号接收,还可以根据视觉信号进一步推 理,理解复杂的物理世界。"在现场演示时,智谱CEO张鹏介绍道,智谱基于预训练构造了视觉理解模 型,监督微调使其初步具备推理能力,再基于深度学习大幅提高推理能力,在业内首次把推理能力和视 觉理解能力有机结合在一起。 人类不仅希望AI能思考,还希望AI能执行——通过自主智能体的方式,现有的大模型能力能转化成真 正的生产力。 此前,大模型可以用于代码生成;而视觉推理能力使得AI能够"看懂"和"理解"视觉信息,比如用户界面 (UI)的设计图、原型图甚至屏幕截图,可以辅助产品经理生成代码重构用户界面。 "视觉推理能力还可以用于智能体,让它理解GUI(图形用户界面),比如理解手机、PC上复杂的用户 操作界面,形成精准的操作逻辑。"据张鹏介绍,GLM- ...
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
量子位· 2025-06-07 05:02
ReasonMap团队 投稿 量子位 | 公众号 QbitAI 近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。 然而,一个关键问题仍然值得追问: 多模态大模型(MLLMs),真的能"看懂图"了吗? 特别是在面对结构复杂、细节密集的图像时,它们是否具备细粒度视觉理解与空间推理能力,比如挑战一下高清 地铁图 这种。 为此,来自西湖大学、新加坡国立大学、浙江大学、华中科技大学的团队提出了一个全新的评测基准 ReasonMap 。 看得出来北京、杭州的地铁图难倒了一大片模型。 这是首个聚焦于 高分辨率交通图(主要为地铁图)的多模态推理评测基准,专为评估大模型在理解图像中细粒度的结构化空间信息 方面的 能力而设计。 结果发现,当前主流开源的多模态模型在ReasonMap上面临明显性能瓶颈,尤其在 跨线路路径规划 上常出现视觉混淆或站点遗漏。 而经强化学习后训练的闭源推理模型(如 GPT-o3)在多个维度上 显著优于 现有开源模型,但与人类水平相比仍存在明显差距。 在面对不同国家地区的地铁图中,四个代表性 MLLM(Qwen2.5-VL-72B-I(蓝色)、 I ...
纯靠“脑补”图像,大模型推理准确率狂飙80%丨剑桥谷歌新研究
量子位· 2025-05-21 04:01
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 不再依赖语言,仅凭 图像 就能完成模型推理? 大模型又双叒叕迎来新SOTA! 当你和大模型一起玩超级玛丽时,复杂环境下你会根据画面在脑海里自动规划步骤,但LLMs还需要先转成文字攻略一格格按照指令移动,效 率又低、信息也可能会丢失,那难道就没有一个可以跳过 "语言中介" 的方法吗? 目前相关代码已开源,可点击文末链接获取。 以下是有关VPRL的更多细节。 VPRL更准确、更有效 于是来自剑桥、伦敦大学学院和谷歌的研究团队推出了 首次 纯粹依靠图像进行推理的新范式—— 基于强化学习的视觉规划 (VPRL) 。 新框架利用 GRPO 对大型视觉模型进行后训练,在多个代表性视觉导航任务中的性能表现都远超基于文本的推理方法。 准确率高达80%,性能超文本推理至少40%,首次验证了 视觉规划显著优于文本规划 ,为直觉式图像推理任务开辟了新方向。 现有的视觉推理基准都是将视觉信息映射到文本领域进行处理,整个推理过程都由语言模型完成。 纯视觉规划则是让模型 直接利用图像序列 ,没有中间商"赚差价",推理效率直线UP。 由此团队直接引入一个基于强化学习的视觉规划训练框架V ...
OpenAI深夜上线o3满血版和o4 mini - 依旧领先。
数字生命卡兹克· 2025-04-16 20:34
晚上1点,OpenAI的直播如约而至。 其实在预告的时候,几乎已经等于明示了。 这块大概解释一下,别看底下模型那么多,乱七八糟,各种变体。 但是从最早的o1到如今的o3和o4‑mini,核心差别就在于模型规模、推理能力和插件工具的接入。 没有废话,今天发布的就是o3和o4-mini。 但是奥特曼这个老骗子,之前明明说o3不打算单独发布要融到GPT-5里面一起发,结果今天又发了。。。 ChatGPT Plus、Pro和Team用户从今天开始将在模型选择器中看到o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。 我的已经变了,但是我最想要的o3 pro,还要几周才能提供,就很可惜,现在o1 pro被折叠到了更多模型里。 说实话纯粹的模型参数的进步,其实已经没啥可说的了,这次最让我觉得最大的进步点,是两个: 1. 满血版的o3终于可以使用工具了。 2. o3和o4-mini 是o系列中最新的视觉推理模型,第一次能够在思维链中思考图像了。 照例,我一个一个来说,尽可能给大家一个,非常全面完整的总结。 一.o3和o4-mini性能 其实没有特别多的意思,就跟现在数码圈一 ...