视觉语言模型

Search documents
CVPR'25 | 感知性能飙升50%!JarvisIR:VLM掌舵, 不惧恶劣天气
具身智能之心· 2025-06-21 12:06
以下文章来源于AI生成未来 ,作者AI生成未来 AI生成未来 . 领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等AI领域前沿技术 编辑丨具身智能之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 论文链接: https://arxiv.org/pdf/2504.04158 项目主页: https://cvpr2025-jarvisir.github.io/ Github仓库: https://github.com/LYL1015/JarvisIR Huggingface Online Demo: https://huggingface.co/spaces/LYL1015/JarvisIR 背景与动机 在自动驾驶等现实应用场景中,视觉感知系统常常受到多种天气退化(如雨、雾、夜间、雪)的影响。 传统的单任务方法依赖特定先验知识,而 all-in-one 方法只能解决有限的退化组合同时又存在严重的 领域差异,难以应对复 ...
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能、场景、方法论全解析~
具身智能之心· 2025-06-21 12:06
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨具身智能之心 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近很多同学询问π0、π0.5、A0都是啥?用在什么地方?能实现哪些功能?方法论有啥不同?前面 刚开始听到这些,也一头雾水,今天为大家梳理下。 π₀模型结构 原文:π0: A Vision-Language-Action Flow Model for General Robot Control π₀的核心架构基于 预训练视觉语言模型(VLM) 和 Flow Matching 技术,具体包含以下关键组件: VLM backbone 动作专家(Action Expert) 跨具身训练(Cross-Embodiment Training) 整合 7 种机器人、68 项任务、超 10,000 小时数据(含开源 OXE 数据集),通过权重调整处理不 同机器人的动作空间差异(如零填充低维动作向量)。 训练流程 基于 PaliGemma V ...
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 11:54
以下是知识星球里面一位同学的提问: 请问VLA和VLM的区别是什么?现在推荐学哪个呢? 这两者互为表里: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型已经席卷各个领域,在智能驾驶领域,VLM也正在逐渐铺开落地量产。 不少入门的小伙伴也表示,现在大模型太重要了,想要入门学习,但有点拿不准方向。 1、VLM可以理解基础的能力,可以是通用的检测、问答、空间理解、思维链等等能力 2、VLA更侧重Action的能力,最终目的是为了做动作,在自动驾驶中可以理解为自车轨迹预测的能力,通时预 测的轨迹又要尽可能的符合人类的理解,这又进一步依赖vision和language的基本能力,比如我要解释这个行 为,可以使用思维链的形式一步步推理分析,这里面依赖自动驾驶基础的感知(行人在哪里,2D坐标,3D位置 等等) 这两者没办法完全独立的学习,我认为的方式应该是先学VLM,再去扩展到VLA VLM接扩散模型就可以预测轨迹,也就是Action,这块就涉及到多模轨迹的好处了,面对不确定的环境,单模 的能力有限,多模的上限是更高的 最后欢迎大家加入知识星球,硬核资料在星球置 ...
万马科技20250612
2025-06-12 15:07
摘要 万马科技通过收购有方科技切入车联网领域,车联网业务收入从 2021 年的 5,000 万元增长到 2024 年的 2.6 亿元,利润也显著提升,并已建 立完整的数据闭环工具链和智驾算力中心。 国内车联网行业渗透率约为 80%,海外市场渗透率不足 30%,随着智 能驾驶对数据需求的增加,国内外市场均有较大的发展空间,尤其 Robotaxi 对实时数据监控和技术要求更高,单车价值提升显著。 优卡科技提供蓝海全球车联和云自动驾驶数据闭环两大解决方案,支持 1,400 万辆车辆,客户包括吉利、上汽、东风和理想等,并在全球范围 内支持 Robotaxi 企业的业务布局。 Robotaxi 被视为车联网行业发展的"皇冠上的明珠",高盛预测中国 Robotaxi 市场年化增长率将达到 96%。目前已在北京、武汉、广州以 及香港、迪拜等地进行常态化运营,特斯拉也即将推出相关业务。 Robotaxi 运营对网络质量有极高要求,包括运行安全、用户交互、合 规性、自动驾驶数据采集和运维等方面,需要高清地图、车路协同、远 程脱困以及海量数据支持。 万马科技 20250612 据监控需求高,对技术和数据量要求也更高,从单车价值上 ...
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
量子位· 2025-06-09 09:27
Core Viewpoint - The article discusses the transition of Visual Language Models (VLM) from "perception" to "cognition," highlighting the introduction of "Pixel-Space Reasoning" which allows models to interact with visual information directly at the pixel level, enhancing their understanding and reasoning capabilities [1][2][3]. Group 1: Key Developments in VLM - The current mainstream VLMs are limited by their reliance on text tokens, which can lead to loss of critical information in high-resolution images and dynamic video scenes [2][4]. - "Pixel-Space Reasoning" enables models to perform visual operations directly, allowing for a more human-like interaction with visual data [3][6]. - This new reasoning paradigm shifts the focus from text-mediated understanding to native visual operations, enhancing the model's ability to capture spatial relationships and dynamic details [6][7]. Group 2: Overcoming Learning Challenges - The research team identified a "cognitive inertia" challenge where the model's established text reasoning capabilities hinder the development of new pixel operation skills, creating a "learning trap" [8][9]. - To address this, a reinforcement learning framework was designed that combines intrinsic curiosity incentives with extrinsic correctness rewards, encouraging the model to explore visual operations [9][12]. - The framework includes constraints to ensure a minimum rate of pixel-space reasoning and to balance exploration with computational efficiency [10][11]. Group 3: Performance Validation - The Pixel-Reasoner, based on the Qwen2.5-VL-7B model, achieved impressive results across four visual reasoning benchmarks, outperforming models like GPT-4o and Gemini-2.5-Pro [13][19]. - Specifically, it achieved an accuracy of 84.3% on the V* Bench, significantly higher than its competitors [13]. - The model demonstrated a 73.8% accuracy on TallyQA-Complex, showcasing its ability to differentiate between similar objects in images [19][20]. Group 4: Future Implications - The research indicates that pixel-space reasoning is not a replacement for text reasoning but rather a complementary pathway for VLMs, enabling a dual-track understanding of the world [21]. - As multi-modal reasoning capabilities evolve, the industry is moving towards a future where machines can "see more clearly and think more deeply" [21].
中金《秒懂研报》 | 智能驾驶:引领出行变革的新时代
中金点睛· 2025-05-24 08:32
你是否曾幻想过,汽车能像人一样聪明,在复杂的城市道路中自由穿梭?如今,智能驾驶正逐渐 将这一幻想变为现实。它是如何实现的?又会给我们的出行带来哪些改变呢? 智能驾驶背后的技术引擎 智能驾驶的普及步伐有多快? 智能驾驶的商业模 式 城市NOA的益处 1 2 3 4 本期要点荟萃 分享人 | 任丹霖 (中金公司研究部汽车及出行设备行业分析师) 01 智能驾驶背后的技术引擎 智能驾驶的技术创新中, 端到端架构 是一大亮点。它能降低数据标注的难度,通过独特算法优化 数据处理流程,减少人工工作量。 同时,它能提升信息传递效率,让车辆对路况反应更及时准确,就像减少传话"噪音"一样,其强大 的泛化能力使车辆能应对各种复杂路况。 而且,端到端架构加速了功能迭代,让系统更快升级。 不仅如此,引入视觉语言模型和云端模型后,系统处理复杂场景的能力更强,如同给汽车装上更敏 锐的"眼睛"。 在端到端架构推动技术创新的同时,我们认为, 城市导航辅助驾驶(NOA) 功能或将成为车企竞 争的新热点,车位到车位功能更将成为焦点,未来还可能向L3/L4高阶自动驾驶发展。 当前智能驾驶发展如何? 02 智能驾驶的普及步伐有多快? 高速NOA功能在 ...
智能辅助驾驶竞速与暗战:自研派VS合作派,功能水平分化加剧
Bei Ke Cai Jing· 2025-05-22 10:37
当前,智能辅助驾驶技术已进入高速发展期,各家企业通过自研或合作方式推出差异化解决方案,推动功能普及与体验升级。 根据公开数据及企业信息,新京报贝壳财经记者对辅助驾驶行业的功能水平进行盘点。 在车企中,比亚迪、小鹏都是车企自研的代表,也属于第一梯队。举例来说,比亚迪全栈自研的高阶智能辅助系统名为"天神之眼"。小鹏、理想等车企也在 辅助驾驶功能上不断发力。 也有企业并不完全认同车企的自研模式。博世智能驾控系统中国区总裁吴永桥就曾公开表示,未来中阶智能辅助驾驶将成为标配,主机厂每年投入数亿甚至 数十亿进行全栈自研,成本巨大且性价比不高,应交给供应链处理。 华为一直被列为智能辅助驾驶系统的第一梯队。华为智能汽车解决方案BU首席执行官靳玉志在2024年就表示,接下来有7家车企的10个品牌会采用乾崑解决 方案,包括长安深蓝、赛力斯问界等,预计采用华为智驾的汽车超50万辆。 | | | / U-+ \ | | | --- | --- | --- | --- | | | | 项目。 | | | 165 13 | 车企自研 | 理想汽车智能驾驶 | | | 全新一代双系统 | | 正式进入Al大模型 | | | 智能驾驶解决方 ...
苹果发布FastVLM模型,可在iPhone上运行的极速视觉语言模型;昆仑万维宣布开源Matrix-Game大模型丨AIGC日报
创业邦· 2025-05-13 23:52
1.【昆仑万维宣布正式开源Matrix-Game大模型】5月13日,据昆仑万维消息,昆仑万维正式开源 (17B+)Matrix-Game大模型,即Matrix-Zero世界模型中的可交互视频生成大模型。Matrix-Game是Matrix系 列在交互式世界生成方向的正式落地,也是工业界首个开源的10B+空间智能大模型,它是一个面向游戏 世界建模的交互式世界基础模型,专为开放式环境中的高质量生成与精确控制而设计。(第一财经) 2.【百型智能推出国内首个外贸行业垂类Agent】百型智能推出国内首个外贸行业垂类Agent——AI外贸员 Zoe。据了解,Zoe可以根据企业目标拆解任务,独立完成从市场分析、寻找客户、精准筛选,到开发触 达、转化跟进的外贸开发拓客全链路,转化率高出传统人工方式10倍以上。(财联社) 3.【火山引擎发布豆包视频生成模型Seedance 1.0 lite】火山引擎发布豆包·视频生成模型Seedance 1.0 lite、 豆包1.5·视觉深度思考模型,并升级豆包·音乐模型,以更全面的模型矩阵、更丰富的智能体工具,帮助企 业打通从业务到智能体的应用链路。官方表示,此次全新发布的豆包视频生成模型 ...
具身智能 “成长”的三大烦恼
2 1 Shi Ji Jing Ji Bao Dao· 2025-04-24 13:07
21世纪经济报道记者 林典驰 深圳报道 今年以来,人形机器人的产业化进展飞速。 从春晚上"福兮"的精彩表演,到首届人形机器人半程马拉松中"天工"的首次冲线,一时间"街头巷尾"都 在讨论人形机器人。 要支撑人形机器人与环境感知交互,就离不开具身智能技术的持续突破。尤其是大语言模型 (LLM)、视觉语言模型(VLM)以及视觉语言动作端到端模型(VLA)等关键技术的迭代创新,显 著提升了机器人在交互感知和泛化能力方面的表现。 然而,具身智能前行之路并非坦途,在数据采集、机器人形态应用以及大小脑融合等方面仍面临诸多挑 战。 因此,厂商们正在从不同的领域切入,解决以上痛点。比如,英特尔和东土科技(300353)等提出大小 脑融合解决方案,采用单一芯片架构替代双系统模式,降低整体成本及软件开发、测试、优化与部署成 本。 破解数据匮乏桎梏 1950年,艾伦·图灵首次提出"具身智能"时,并未引起轰动,直到在近两年才成为科技圈的热词。 图灵给出的基本假设是,具身智能是通过与环境交互获得知识并泛化应用能力。英伟达创始人兼CEO黄 仁勋则进一步诠释,具身智能是能够理解、推理并与物理世界互动的智能系统,预计其将成为人工智能 的下一波 ...
华为诺亚VLM长程具身导航: 全局-自记忆映射与3大记忆模块解析
理想TOP2· 2025-04-23 13:34
以下文章来源于深蓝具身智能 ,作者深蓝学院-具身君 深蓝具身智能 . 深蓝学院旗下专注于具身智能与大模型的资讯与干货分享 "智能体不应被语言或视角束缚, 记忆与感知的融合才是自由导航的钥匙" 介绍本文具体工作前,先一起回顾一下 现有VLN的分类,如表1所示,大致分为 三类 :基于大语言模型(LLM)的导航、基于价值地图的导航和基于 视觉语言模型(VLM)的导航。 | सेंड | 说明 | 方法 | 优点 | 缺点 | | --- | --- | --- | --- | --- | | 基于LLM的 导航 | 构建全局记忆地 图,用自然语言 | LFG | 维护全局地 | 缺乏高维语义信 息, 削弱空间推理 | | | 描述候选目标点 | VoroNav | 图,使用高 | | | | | ESC | | 能力 | | | 位置,使用LLM生 成行动决策 | OpenIMNav | 级推理 | | | 基于价值地 | 根据自我视角观 察计算全局价值 | VLFM | 解决长时导 | 价值地图基于局部 观察,缺乏全局视 | | 图的导航 | 函数,根据生成 | InstructNav | 航的记忆遗 | 角,导 ...