Workflow
视觉语言模型
icon
Search documents
CVPR'25 | 感知性能飙升50%!JarvisIR:VLM掌舵, 不惧恶劣天气
具身智能之心· 2025-06-21 12:06
以下文章来源于AI生成未来 ,作者AI生成未来 AI生成未来 . 领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等AI领域前沿技术 编辑丨具身智能之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 论文链接: https://arxiv.org/pdf/2504.04158 项目主页: https://cvpr2025-jarvisir.github.io/ Github仓库: https://github.com/LYL1015/JarvisIR Huggingface Online Demo: https://huggingface.co/spaces/LYL1015/JarvisIR 背景与动机 在自动驾驶等现实应用场景中,视觉感知系统常常受到多种天气退化(如雨、雾、夜间、雪)的影响。 传统的单任务方法依赖特定先验知识,而 all-in-one 方法只能解决有限的退化组合同时又存在严重的 领域差异,难以应对复 ...
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能、场景、方法论全解析~
具身智能之心· 2025-06-21 12:06
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨具身智能之心 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近很多同学询问π0、π0.5、A0都是啥?用在什么地方?能实现哪些功能?方法论有啥不同?前面 刚开始听到这些,也一头雾水,今天为大家梳理下。 π₀模型结构 原文:π0: A Vision-Language-Action Flow Model for General Robot Control π₀的核心架构基于 预训练视觉语言模型(VLM) 和 Flow Matching 技术,具体包含以下关键组件: VLM backbone 动作专家(Action Expert) 跨具身训练(Cross-Embodiment Training) 整合 7 种机器人、68 项任务、超 10,000 小时数据(含开源 OXE 数据集),通过权重调整处理不 同机器人的动作空间差异(如零填充低维动作向量)。 训练流程 基于 PaliGemma V ...
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 11:54
以下是知识星球里面一位同学的提问: 请问VLA和VLM的区别是什么?现在推荐学哪个呢? 这两者互为表里: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型已经席卷各个领域,在智能驾驶领域,VLM也正在逐渐铺开落地量产。 不少入门的小伙伴也表示,现在大模型太重要了,想要入门学习,但有点拿不准方向。 1、VLM可以理解基础的能力,可以是通用的检测、问答、空间理解、思维链等等能力 2、VLA更侧重Action的能力,最终目的是为了做动作,在自动驾驶中可以理解为自车轨迹预测的能力,通时预 测的轨迹又要尽可能的符合人类的理解,这又进一步依赖vision和language的基本能力,比如我要解释这个行 为,可以使用思维链的形式一步步推理分析,这里面依赖自动驾驶基础的感知(行人在哪里,2D坐标,3D位置 等等) 这两者没办法完全独立的学习,我认为的方式应该是先学VLM,再去扩展到VLA VLM接扩散模型就可以预测轨迹,也就是Action,这块就涉及到多模轨迹的好处了,面对不确定的环境,单模 的能力有限,多模的上限是更高的 最后欢迎大家加入知识星球,硬核资料在星球置 ...
万马科技20250612
2025-06-12 15:07
摘要 万马科技通过收购有方科技切入车联网领域,车联网业务收入从 2021 年的 5,000 万元增长到 2024 年的 2.6 亿元,利润也显著提升,并已建 立完整的数据闭环工具链和智驾算力中心。 国内车联网行业渗透率约为 80%,海外市场渗透率不足 30%,随着智 能驾驶对数据需求的增加,国内外市场均有较大的发展空间,尤其 Robotaxi 对实时数据监控和技术要求更高,单车价值提升显著。 优卡科技提供蓝海全球车联和云自动驾驶数据闭环两大解决方案,支持 1,400 万辆车辆,客户包括吉利、上汽、东风和理想等,并在全球范围 内支持 Robotaxi 企业的业务布局。 Robotaxi 被视为车联网行业发展的"皇冠上的明珠",高盛预测中国 Robotaxi 市场年化增长率将达到 96%。目前已在北京、武汉、广州以 及香港、迪拜等地进行常态化运营,特斯拉也即将推出相关业务。 Robotaxi 运营对网络质量有极高要求,包括运行安全、用户交互、合 规性、自动驾驶数据采集和运维等方面,需要高清地图、车路协同、远 程脱困以及海量数据支持。 万马科技 20250612 据监控需求高,对技术和数据量要求也更高,从单车价值上 ...
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
量子位· 2025-06-09 09:27
Core Viewpoint - The article discusses the transition of Visual Language Models (VLM) from "perception" to "cognition," highlighting the introduction of "Pixel-Space Reasoning" which allows models to interact with visual information directly at the pixel level, enhancing their understanding and reasoning capabilities [1][2][3]. Group 1: Key Developments in VLM - The current mainstream VLMs are limited by their reliance on text tokens, which can lead to loss of critical information in high-resolution images and dynamic video scenes [2][4]. - "Pixel-Space Reasoning" enables models to perform visual operations directly, allowing for a more human-like interaction with visual data [3][6]. - This new reasoning paradigm shifts the focus from text-mediated understanding to native visual operations, enhancing the model's ability to capture spatial relationships and dynamic details [6][7]. Group 2: Overcoming Learning Challenges - The research team identified a "cognitive inertia" challenge where the model's established text reasoning capabilities hinder the development of new pixel operation skills, creating a "learning trap" [8][9]. - To address this, a reinforcement learning framework was designed that combines intrinsic curiosity incentives with extrinsic correctness rewards, encouraging the model to explore visual operations [9][12]. - The framework includes constraints to ensure a minimum rate of pixel-space reasoning and to balance exploration with computational efficiency [10][11]. Group 3: Performance Validation - The Pixel-Reasoner, based on the Qwen2.5-VL-7B model, achieved impressive results across four visual reasoning benchmarks, outperforming models like GPT-4o and Gemini-2.5-Pro [13][19]. - Specifically, it achieved an accuracy of 84.3% on the V* Bench, significantly higher than its competitors [13]. - The model demonstrated a 73.8% accuracy on TallyQA-Complex, showcasing its ability to differentiate between similar objects in images [19][20]. Group 4: Future Implications - The research indicates that pixel-space reasoning is not a replacement for text reasoning but rather a complementary pathway for VLMs, enabling a dual-track understanding of the world [21]. - As multi-modal reasoning capabilities evolve, the industry is moving towards a future where machines can "see more clearly and think more deeply" [21].
中金《秒懂研报》 | 智能驾驶:引领出行变革的新时代
中金点睛· 2025-05-24 08:32
你是否曾幻想过,汽车能像人一样聪明,在复杂的城市道路中自由穿梭?如今,智能驾驶正逐渐 将这一幻想变为现实。它是如何实现的?又会给我们的出行带来哪些改变呢? 智能驾驶背后的技术引擎 智能驾驶的普及步伐有多快? 智能驾驶的商业模 式 城市NOA的益处 1 2 3 4 本期要点荟萃 分享人 | 任丹霖 (中金公司研究部汽车及出行设备行业分析师) 01 智能驾驶背后的技术引擎 智能驾驶的技术创新中, 端到端架构 是一大亮点。它能降低数据标注的难度,通过独特算法优化 数据处理流程,减少人工工作量。 同时,它能提升信息传递效率,让车辆对路况反应更及时准确,就像减少传话"噪音"一样,其强大 的泛化能力使车辆能应对各种复杂路况。 而且,端到端架构加速了功能迭代,让系统更快升级。 不仅如此,引入视觉语言模型和云端模型后,系统处理复杂场景的能力更强,如同给汽车装上更敏 锐的"眼睛"。 在端到端架构推动技术创新的同时,我们认为, 城市导航辅助驾驶(NOA) 功能或将成为车企竞 争的新热点,车位到车位功能更将成为焦点,未来还可能向L3/L4高阶自动驾驶发展。 当前智能驾驶发展如何? 02 智能驾驶的普及步伐有多快? 高速NOA功能在 ...
智能辅助驾驶竞速与暗战:自研派VS合作派,功能水平分化加剧
Bei Ke Cai Jing· 2025-05-22 10:37
当前,智能辅助驾驶技术已进入高速发展期,各家企业通过自研或合作方式推出差异化解决方案,推动功能普及与体验升级。 根据公开数据及企业信息,新京报贝壳财经记者对辅助驾驶行业的功能水平进行盘点。 在车企中,比亚迪、小鹏都是车企自研的代表,也属于第一梯队。举例来说,比亚迪全栈自研的高阶智能辅助系统名为"天神之眼"。小鹏、理想等车企也在 辅助驾驶功能上不断发力。 也有企业并不完全认同车企的自研模式。博世智能驾控系统中国区总裁吴永桥就曾公开表示,未来中阶智能辅助驾驶将成为标配,主机厂每年投入数亿甚至 数十亿进行全栈自研,成本巨大且性价比不高,应交给供应链处理。 华为一直被列为智能辅助驾驶系统的第一梯队。华为智能汽车解决方案BU首席执行官靳玉志在2024年就表示,接下来有7家车企的10个品牌会采用乾崑解决 方案,包括长安深蓝、赛力斯问界等,预计采用华为智驾的汽车超50万辆。 | | | / U-+ \ | | | --- | --- | --- | --- | | | | 项目。 | | | 165 13 | 车企自研 | 理想汽车智能驾驶 | | | 全新一代双系统 | | 正式进入Al大模型 | | | 智能驾驶解决方 ...
苹果发布FastVLM模型,可在iPhone上运行的极速视觉语言模型;昆仑万维宣布开源Matrix-Game大模型丨AIGC日报
创业邦· 2025-05-13 23:52
1.【昆仑万维宣布正式开源Matrix-Game大模型】5月13日,据昆仑万维消息,昆仑万维正式开源 (17B+)Matrix-Game大模型,即Matrix-Zero世界模型中的可交互视频生成大模型。Matrix-Game是Matrix系 列在交互式世界生成方向的正式落地,也是工业界首个开源的10B+空间智能大模型,它是一个面向游戏 世界建模的交互式世界基础模型,专为开放式环境中的高质量生成与精确控制而设计。(第一财经) 2.【百型智能推出国内首个外贸行业垂类Agent】百型智能推出国内首个外贸行业垂类Agent——AI外贸员 Zoe。据了解,Zoe可以根据企业目标拆解任务,独立完成从市场分析、寻找客户、精准筛选,到开发触 达、转化跟进的外贸开发拓客全链路,转化率高出传统人工方式10倍以上。(财联社) 3.【火山引擎发布豆包视频生成模型Seedance 1.0 lite】火山引擎发布豆包·视频生成模型Seedance 1.0 lite、 豆包1.5·视觉深度思考模型,并升级豆包·音乐模型,以更全面的模型矩阵、更丰富的智能体工具,帮助企 业打通从业务到智能体的应用链路。官方表示,此次全新发布的豆包视频生成模型 ...
具身智能 “成长”的三大烦恼
21世纪经济报道记者 林典驰 深圳报道 今年以来,人形机器人的产业化进展飞速。 从春晚上"福兮"的精彩表演,到首届人形机器人半程马拉松中"天工"的首次冲线,一时间"街头巷尾"都 在讨论人形机器人。 要支撑人形机器人与环境感知交互,就离不开具身智能技术的持续突破。尤其是大语言模型 (LLM)、视觉语言模型(VLM)以及视觉语言动作端到端模型(VLA)等关键技术的迭代创新,显 著提升了机器人在交互感知和泛化能力方面的表现。 然而,具身智能前行之路并非坦途,在数据采集、机器人形态应用以及大小脑融合等方面仍面临诸多挑 战。 因此,厂商们正在从不同的领域切入,解决以上痛点。比如,英特尔和东土科技(300353)等提出大小 脑融合解决方案,采用单一芯片架构替代双系统模式,降低整体成本及软件开发、测试、优化与部署成 本。 破解数据匮乏桎梏 1950年,艾伦·图灵首次提出"具身智能"时,并未引起轰动,直到在近两年才成为科技圈的热词。 图灵给出的基本假设是,具身智能是通过与环境交互获得知识并泛化应用能力。英伟达创始人兼CEO黄 仁勋则进一步诠释,具身智能是能够理解、推理并与物理世界互动的智能系统,预计其将成为人工智能 的下一波 ...
华为诺亚VLM长程具身导航: 全局-自记忆映射与3大记忆模块解析
理想TOP2· 2025-04-23 13:34
以下文章来源于深蓝具身智能 ,作者深蓝学院-具身君 深蓝具身智能 . 深蓝学院旗下专注于具身智能与大模型的资讯与干货分享 "智能体不应被语言或视角束缚, 记忆与感知的融合才是自由导航的钥匙" 介绍本文具体工作前,先一起回顾一下 现有VLN的分类,如表1所示,大致分为 三类 :基于大语言模型(LLM)的导航、基于价值地图的导航和基于 视觉语言模型(VLM)的导航。 | सेंड | 说明 | 方法 | 优点 | 缺点 | | --- | --- | --- | --- | --- | | 基于LLM的 导航 | 构建全局记忆地 图,用自然语言 | LFG | 维护全局地 | 缺乏高维语义信 息, 削弱空间推理 | | | 描述候选目标点 | VoroNav | 图,使用高 | | | | | ESC | | 能力 | | | 位置,使用LLM生 成行动决策 | OpenIMNav | 级推理 | | | 基于价值地 | 根据自我视角观 察计算全局价值 | VLFM | 解决长时导 | 价值地图基于局部 观察,缺乏全局视 | | 图的导航 | 函数,根据生成 | InstructNav | 航的记忆遗 | 角,导 ...