视觉语言模型

Search documents
AI们数不清六根手指,这事没那么简单
Hu Xiu· 2025-07-11 02:54
昨天Grok4发布完以后,我随手刷了一下X。 然后看到了一个非常有趣的帖子,来自@lepadphone。 我以为,这就是Grok4的问题,模型能力不太行,把一个恶搞的6根手指,数成了5根。 我自己也去测了一下,确实数是5根。 我本来没当回事。 直到我随手把它扔到了OpenAI o3里,发现事情开始不对了起来。因为,o3回复的也是5根手指。 我瞬间皱了眉头,然后扔给了o3 pro。在推理了48秒之后,还是5根。 然后我又把这张图扔给了豆包、kimi、Gemini等几乎所有有多模态的模型。 无一例外,所有的模型,给我的回复都是5根。唯独有一个活口,Claude 4,偶尔会回答正确。 我瞬间一股子冷汗就下来了。一个模型数错了,可能是幻觉,所有的模型都数错,那模型底层肯定有一些问题。 我深夜在群里试图问了一下,结果石沉大海。 那就只能靠自己了,再搜了一堆资料,用DeepReaserch做了深度搜索以后,我找到了一篇能完美解答这个现象的论文:《Vision Language Models are Biased》(视觉语言模型存在偏见)。 这篇论文发表于今年5月29号,至今也才1个多月的时间,还蛮新的。 我花了一些时间, ...
AI们数不清六根手指,这事没那么简单。
数字生命卡兹克· 2025-07-10 20:40
昨天Grok4发布完以后,我随手刷了一下X。 然后看到了一个非常有趣的帖子,来自@lepadphone。 我以为,这就是Grok4的问题,模型能力不太行,把一个恶搞的6根手指,数成了5根。 我自己也去测了一下,确实数是5根。 我本来没当回事。 直到,我随手扔到了OpenAI o3里,发现,事情开始不对了起来。因为,o3回复,也是5根手指。 我瞬间皱了眉头,然后扔给了o3 pro。 在推理了48秒之后,还是5根。 然后我又把这张图扔给了豆包、kimi、Gemini等等所有的有多模态的模型。 而无一例外,所有的模型,给我回复的,都是5根。 唯独有一个活口,Claude 4,偶尔会回答正确。 瞬间一股子冷汗就下来了。 一个模型数错了,可能是幻觉,所有的模型都数错,那,模型的底层肯定有一些问题。 深夜在群里试图问了一下,结果石沉大海。 那就只能靠自己了,再搜了一堆资料,用DeepReaserch做了深度搜索以后,我找到了一篇能完美解答这个现象的论文。 《Vision Language Models are Biased》(视觉语言模型存在偏见) 这篇论文发表于今年5月29号,至今也才1个多月的时间,还蛮新的。 我花了 ...
以玩促学?游戏代码驱动数据合成,提升多模态大模型通用推理
机器之心· 2025-07-04 08:59
如果告诉你, AI 在推箱子等游戏场景上训练,能让它在几何推理与图表推理上表现更好,你会相信 吗? 复旦 NLP 实验室联合字节跳动智能服务团队的最新研究给出了一个令人意外的发现: 游戏不仅是娱乐 工具,更是训练 AI 推理能力的宝贵资源。 Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning 论文链接: https://arxiv.org/abs/2505.13886 代码仓库: https://github.com/tongjingqi/Code2Logic 标题: 数据和模型: https://huggingface.co/Code2Logic 引言 高质量多模态推理数据的极度稀缺,制约了视觉语言模型( VLMs )复杂推理能力的提升。那么,有 没有一种低成本又可靠的方法来大规模生成这些数据呢? 复旦与字节的研究团队创新性地提出了一个巧妙的思路: 利用游戏代码自动合成视觉推理数据。 | A | ਟ | E | ч | 0 | - | | --- | --- | --- | --- | --- | ...
无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab
量子位· 2025-07-04 01:42
VScan团队 投稿 量子位 | 公众号 QbitAI 多图像、长视频、细粒度感知正在让大型视觉语言模型(LVLM)变得越来越聪明,但也越来越"吃不消": 视觉Token数量的激增所带来的推理成本暴涨,正逐渐成为多模态智能扩展的最大算力瓶颈。 为解决这个问题, 腾讯AI Lab联合CMU 提出全新解决方案 VScan 。 该方法聚焦于大规模视觉语言模型推理阶段的效率瓶颈,通过精妙的两阶段视觉token筛选机制,在几乎不损性能的前提下,实现高达2.91x 的推理加速。无需修改模型架构、无需重新训练, 兼容FlashAttention, VScan为业界提供了一种轻量、通用、即插即用的推理加速方案。 为了处理更复杂、更丰富的视觉输入,现有LVLM往往需要编码远超文本Token规模的视觉信息。例如,LLaVA-NeXT在处理高分辨率图像时 会引入多达2,880个视觉Token,而Qwen2.5-VL在应对多图像或视频输入时,甚至能处理高达16,384个视觉Token——这一规模已远远超过 传统语言模型所处理的输入长度。 随着Token数量的激增,输入序列随之拉长,而自注意力机制的计算复杂度呈平方增长,这使得推理阶段 ...
AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体
机器之心· 2025-06-27 04:02
近期,吉林大学人工智能学院发布了一项基于强化学习训练的 VLM 智能体最新研究《ScreenExplorer: Training a Vision-Language Model for Diverse Exploration in Open GUI World》。它让视觉语言模型(VLM)真正学会了「自我探索 GUI 环境」。 论文地址:https://arxiv.org/abs/2505.19095 项目地址:https://github.com/niuzaisheng/ScreenExplorer 该工作带来三大核心突破: 作者简介:本文第一作者牛润良是吉林大学人工智能学院博士研究生,研究方向包括大模型智能体、强化学习,专注于 GUI Agent。通讯作者王琪为吉林大学人 工智能学院研究员,研究方向包括数据挖掘、大模型、强化学习。 迈向通用人工智能(AGI)的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。随着大语言模型(LLMs)和视觉语言模型(VLMs)的飞速发 展,智能体已展现出令人瞩目的跨领域任务泛化能力。 而在我们触手可及的开放世界环境中,图形用户界面(GUI)无疑是人机交互最普遍 ...
今年大火的目标导航到底是什么?从目标搜索到触达有哪些路线?
具身智能之心· 2025-06-26 14:19
目标驱动导航,赋予机器人自主完成导航目标 具身导航作为具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱。目标驱动导航(Goal-Oriented Navigation)通过赋予机器人自主决策能 力,是具身导航中最具代表性的方向。 目标驱动导航要求智能体在陌生的三维环境中,仅凭目标描述(如坐标、图片、自然语言)等,即可自主完成环境探索与 路径规划。 与传统视觉语言导航(VLN)依赖显式指令不同,目标驱动导航系统需要实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁:当人类下达"去厨房拿可乐"的指 令时,机器人需自主完成语义解析(识别厨房空间特征与可乐视觉属性)、环境建模(构建家居场景的空间拓扑)以及动态决策(避开移动的人类或宠物),这 背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破。 目标驱动导航技术已在多个垂直领域实现产业化落地。在终端配送场景中,该技术与社交导航算法结合,使机器人具备应对动态环境和人际交互的能力:美团无 人配送车通过动态路径重规划在复杂城市环境中执行递送任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署。在医疗、酒店及餐饮场景,嘉 ...
AI Lab最新InternSpatia:VLM空间推理数据集,显著提升模型能力
具身智能之心· 2025-06-24 14:09
背景与动机 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 当前视觉语言模型(VLMs)在空间推理任务(如物体位置/大小比较、多视角关系理解)中存在显著不 足。现有数据集存在三大局限: 点击下方 卡片 ,关注" 具身智能 之心 "公众号 核心贡献 作者丨 Nianchen Deng等 1. InternSpatial数据集 编辑丨具身智能之心 规模与结构 : 指令多样性 :支持19种指令格式(Table 1对比) 1. 场景单一性 :数据源集中于室内/室外场景(如SpatialVLM、OSD),缺乏驾驶、具身导航等多样化环 境; 2. 指令格式受限 :仅支持自然语言或区域掩码(如SpatialQA仅用文本,OSD依赖掩码),难以覆盖真实 应用中的多样化查询形式; 3. 多视角监督缺失 :现有数据聚焦单图推理(占比超90%),缺乏跨视角时空关系建模能力。 视觉格式 :原始图/带边界框图/掩码图/编号物体图(Figure 2示例) 1200万QA对(950万单视图 + ...
FindingDory:具身智能体记忆评估的基准测试
具身智能之心· 2025-06-22 10:56
点击下方 卡片 ,关注" 具身智能 之心 "公众号 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 一、研究背景与核心问题 长期记忆缺失 是当前具身智能体的关键瓶颈。尽管视觉语言模型(VLMs)在规划与控制任务中表现突 出,但其 处理跨时空的多模态观察数据 能力严重受限: 核心矛盾 :具身智能需整合长期历史经验(如"找到昨天未整理的玩偶"),但缺乏针对性评估框架。 二、基准设计创新点 2.1 任务架构 作者丨 Karmesh Yadav等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 动态环境交互 记忆推理验证 输入限制 :主流VLMs仅能处理数百张图像(远低于真实场景的千帧级输入) 评估缺陷 :现有视频QA基准(如EgoSchema)依赖选择题形式,无法评估 物体操纵/导航 等需细粒 度推理的具身任务 记忆-动作脱节 :传统方法孤立评估记忆召回与决策执行,忽视二者在具身环境中的耦合性 动态环境构建 :脚本代理在Habitat模拟器中执行物体抓取-放置(Pick-and-Place),产生 ...
上海交大最新!DyNaVLM:零样本、端到端导航框架
具身智能之心· 2025-06-22 10:56
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zihe Ji等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与优化目标 在自主智能体领域,导航是一项基础且关键的能力,它需要融合空间推理、实时决策以及对动态环境的适 应能力。尽管人类能在复杂环境中轻松导航,但在人工系统中复现这一能力仍面临巨大挑战。传统导航方 法常将问题分解为感知、推理、规划和控制等模块化组件,虽依赖专业算法处理子任务,但存在泛化性 差、可扩展性不足以及实际部署困难等问题,因其严重依赖特定任务的工程设计和僵化的流程。 近年来,视觉语言模型(VLM)的发展为导航领域带来了新的可能,它通过在单一框架内整合感知与推 理,为解决传统方法的弊端提供了新思路。然而,VLM在具身导航中的应用仍受限于空间粒度和上下文推 理能力的不足。基于此,本研究提出了DyNaVLM,这是一种零样本、端到端的导航框架,其核心目标是让 VLM无需微调或接触导航特定数据,就能直接作为导航策略使 ...
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能/场景/方法论全解析~
自动驾驶之心· 2025-06-22 01:35
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨具身智能之心 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近很多同学询问π0、π0.5、A0都是啥?用在什么地方?能实现哪些功能?方法论有啥不同?前面 刚开始听到这些,也一头雾水,今天为大家梳理下。 π₀模型结构 原文:π0: A Vision-Language-Action Flow Model for General Robot Control π₀的核心架构基于 预训练视觉语言模型(VLM) 和 Flow Matching 技术,具体包含以下关键组件: VLM backbone 动作专家(Action Expert) 跨具身训练(Cross-Embodiment Training) 整合 7 种机器人、68 项任务、超 10,000 小时数据(含开源 OXE 数据集),通过权重调整处理不 同机器人的动作空间差异(如零填充低维动作向量)。 训练流程 基于 PaliGemma V ...