视觉

Search documents
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能、场景、方法论全解析~
具身智能之心· 2025-06-21 12:06
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨具身智能之心 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近很多同学询问π0、π0.5、A0都是啥?用在什么地方?能实现哪些功能?方法论有啥不同?前面 刚开始听到这些,也一头雾水,今天为大家梳理下。 π₀模型结构 原文:π0: A Vision-Language-Action Flow Model for General Robot Control π₀的核心架构基于 预训练视觉语言模型(VLM) 和 Flow Matching 技术,具体包含以下关键组件: VLM backbone 动作专家(Action Expert) 跨具身训练(Cross-Embodiment Training) 整合 7 种机器人、68 项任务、超 10,000 小时数据(含开源 OXE 数据集),通过权重调整处理不 同机器人的动作空间差异(如零填充低维动作向量)。 训练流程 基于 PaliGemma V ...
大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%
量子位· 2025-06-21 06:07
Core Insights - The article discusses the development of the ViLaSR-7B model, which enhances spatial reasoning capabilities in large vision-language models (LVLMs) through a novel "Drawing to Reason in Space" paradigm, achieving significant improvements in various spatial reasoning tasks [1][17][33]. Group 1: Model Performance - ViLaSR-7B achieved an average improvement of 18.4% across five major spatial reasoning benchmarks, including maze navigation and video spatial reasoning [3][25]. - The model reached a 45.4% accuracy on the VSI-Bench, outperforming the Qwen2.5-VL-7B by 12.7% [26]. Group 2: Training Framework - The model employs a three-stage training framework: 1. Cold-start training establishes basic visual operation capabilities [22]. 2. Reflective rejection sampling enhances self-correction and reflection abilities [23]. 3. Reinforcement learning optimizes overall reasoning capabilities and drawing operation efficiency [24]. Group 3: Reasoning Paradigms - The article highlights a shift from the traditional "visual-to-text" reasoning paradigm to the "Thinking with Images" paradigm, which allows models to actively manipulate images during reasoning [10][15]. - This new paradigm addresses limitations in the traditional approach, such as loss of critical details and temporal information during the visual encoding process [11][16]. Group 4: Human-like Reasoning Strategies - ViLaSR-7B demonstrates human-like spatial reasoning strategies, such as reference-based measurement reasoning and systematic cross-frame object tracking [30][32]. - The model's ability to identify and utilize reference objects for accurate measurements reflects a mature reasoning process similar to human problem-solving [31].
走进“机器人之眼”:21世纪卓越董事会系列调研之奥比中光
2 1 Shi Ji Jing Ji Bao Dao· 2025-06-20 10:15
作为国内最早深耕机器人视觉赛道的企业之一,奥比中光自2016年起即为服务机器人提供3D视觉感知 能力。2022年,奥比中光专门为机器人业务设置了产品线,以加大对机器人业务的布局。基于深厚的技 术积累,奥比中光在服务机器人3D视觉传感器领域构筑了显著优势。 为深入洞察机器人核心部件企业的创新脉搏,探究金融资本赋能人工智能产业升级的可行路径,6月19 日,由21世纪经济报道、21世纪资本研究院组织的21世纪卓越董事会系列调研活动来到了3D视觉感知 技术企业——奥比中光科技集团股份有限公司(以下简称"奥比中光",证券代码:688322.SH)。 参与调研的有国内头部金融机构相关人士及资深投资者。 随着"AI+"在千行百业的应用日益深入,机器视觉作为智能化生产的重要组成部分,其市场潜力与发展 前景正引起广泛关注。 2025年《政府工作报告》将具身智能与生物制造、量子科技、6G一起列为需要重点培育的未来产业, 以人形机器人为代表的智能体正加速从实验室迈向产业化。在这一进程中,赋予机器人精准感知环境能 力的"眼睛"——3D视觉技术,成为决定智能化水平的关键一环。 不同于2D视觉,3D视觉感知技术能够实时采集空间、人体、物 ...
技术干货:VLA(视觉-语言-动作)模型详细解读(含主流玩家梳理)
Robot猎场备忘录· 2025-06-20 04:23
温馨提示 : 点击下方图片,查看运营团队2025年6月最新原创报告(共235页) 说明: 欢迎约稿、刊例合作、行业人士交流 , 行业交流记得先加入 "机器人头条"知识星球 ,后添加( 微信号:lietou100w ) 微信; 若有侵权、改稿请联系编辑运营(微信:li_sir_2020); 正文: 早期小编整理文章 【技术干货】"具身智能 "技术最全解析 , 本篇文章重点解读现阶段大火的 视觉-语言-动作 (VLA)模型, 一种整合视觉(Vision)、语言(Language)和动作(Action)的多模态模型 。 2022年,Google和CMU相继推出"SayCan"、"Instruct2Act" 工作,Transformer模型既看图、又读指令、还能 生成生成动作轨迹成为可能;2023年,随着谷歌DeepMind推出RT-2模型,机器人可以端到端地从给定的语言指 令和视觉信号,直接生成特定的动作,具身智能领域也迎来了一个新名词: VLA(Vision-Language-Action Model,视觉-语言-动作模型)。 VLA模型的整体框架可以被视为VLM与端到端模型的结合体,也被看作是端到端大模型2.0 ...
麦浪里的科技范:看智能农机如何实现“颗粒归仓”
Yang Shi Wang· 2025-06-20 03:22
央视网消息:记者从山东省农业农村部门了解到,山东省小麦收获已接近尾声。今年,智慧农机的大规模使用,让三夏作业更加高质高 河北省廊坊市的小麦收割工作目前正有序推进,全市组织调度农业机械投入作业,确保夏粮颗粒归仓。 在廊坊市大城县蓦门村的千亩麦田里,搭载北斗导航系统的智能联合收割机在田间穿梭,收割、脱粒、除杂一气呵成,金黄饱满的麦粒源 源不断送入粮仓。 为保障"三夏"生产高效推进,廊坊市提前检修各类农机具,并引进新型智能收割机。这些收割机依托北斗导航系统的大数据作业路线图, 科学规划收割路径,最大限度降低机收损失率。同时,农业部门还为农户提供科学收割、合理轮作等技术指导,确保夏粮应收尽收。 效。 在潍坊高密的一处智慧农场里,两台搭载北斗导航和AI视觉系统的新型智能农机正在进行麦收作业。这两台农机不仅能自主规划误差极 小的收割路径,还能通过对作物长势、产量高低等数据的实时监测来动态调整农机作业参数,控制机损率,实现高质量收割。 今年,当地将作物、养分、灌溉、灾害4个AI大模型,应用于田间管理和三夏作业,不仅能整合土壤墒情、卫星遥感、气象信息等数据, 为小麦机收给出最佳时间和最优方案,还能根据当前土壤养分的流失情况, ...
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 11:54
以下是知识星球里面一位同学的提问: 请问VLA和VLM的区别是什么?现在推荐学哪个呢? 这两者互为表里: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型已经席卷各个领域,在智能驾驶领域,VLM也正在逐渐铺开落地量产。 不少入门的小伙伴也表示,现在大模型太重要了,想要入门学习,但有点拿不准方向。 1、VLM可以理解基础的能力,可以是通用的检测、问答、空间理解、思维链等等能力 2、VLA更侧重Action的能力,最终目的是为了做动作,在自动驾驶中可以理解为自车轨迹预测的能力,通时预 测的轨迹又要尽可能的符合人类的理解,这又进一步依赖vision和language的基本能力,比如我要解释这个行 为,可以使用思维链的形式一步步推理分析,这里面依赖自动驾驶基础的感知(行人在哪里,2D坐标,3D位置 等等) 这两者没办法完全独立的学习,我认为的方式应该是先学VLM,再去扩展到VLA VLM接扩散模型就可以预测轨迹,也就是Action,这块就涉及到多模轨迹的好处了,面对不确定的环境,单模 的能力有限,多模的上限是更高的 最后欢迎大家加入知识星球,硬核资料在星球置 ...
奥比中光20250618
2025-06-19 09:46
奥比中光 20250618 摘要 奥比中光 3D 视觉产品毛利率维持在 60%以上,生物识别和 NFC 模组 毛利率约为 26%-27%。2025 年 1-5 月总收入 3.6 亿元,同比增长 117%,经营规模扭亏为盈至 5,500 万元,净利率从一季度 12.7%提升 至四五月份 17.6%。 3D 视觉技术通过激光扫描物体形状和距离,精度达亚毫秒级,优于激光 雷达。消费级市场主要供应商包括苹果、英特尔 RealSense 和奥比中 光,其中奥比中光服务于非苹果客户市场。 3D 视觉模组生产的核心技术壁垒在于实现技术闭环和商业化闭环,即确 保设备准确发射、接收、处理信号,并能根据不同环境进行适配,以保 证设备稳定运行。 3D 视觉技术面临环境光、温度变化等导致的"温漂"挑战,需通过机器 视觉算法调制进行场景适配,测试周期长达一年半到两年,算法层面的 场景适配是核心壁垒。 2024 年 3D 视觉产业模式较差,因下游市场需求有限,缺乏爆款产品, 且研发成本高昂。但自 2020 年以来,AGV 机器人转向自动避障机器人, 以及人形机器人等领域对 3D 视觉需求增加。 Q&A 奥比中光在 2025 年的经营数据 ...
单应计算加速数十倍、计算量减少95%!基于几何的SKS和ACA矩阵分解被提出
机器之心· 2025-06-19 03:50
本文由东华大学蔡棽副教授、上海交通大学严骏驰教授和中国科学院自动化所申抒含研究员共同指导并撰写,四名学生作者为东华大学视觉与几何感知实验室的 吴展豪、郭凌希、王佳纯、张斯禹。 一、论文简介 东华大学、上海交通大学、中科院自动化所的研究团队最新提出:两种基于几何的单应矩阵分解,极大地减少了四点求解单应的计算量(相比目前通用的求解稀 疏线性方程组方法减少 95% 以上),可在二维码扫描等典型视觉应用中显著减少计算消耗,并有望应用于其他射影几何、计算机视觉和图形学问题中。 论文已被 IEEE T-PAMI 期刊接收。 论文标题: Fast and Interpretable 2D Homography Decomposition: Similarity-Kernel-Similarity and Affine-Core-Affine Transformations 论文主页链接(含论文、代码、视频介绍、奖金激励):http://www.cscvlab.com/research/SKS-Homography 二、问题介绍 平面单应,又称为二维射影变换,可表示为 3×3 的 8 自由度矩阵 (在相差一个尺度因子下)。源 ...
库萨科技完成数千万元Pre-A轮融资:已实现L4级机器人量产及全国20城部署
IPO早知道· 2025-06-19 02:22
此前, 库萨科技曾先后获得伏泰科技种子轮投资以及思得创投天使轮投资。 今年计划推出新款环卫机器人产品,覆盖更多环卫场景。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 据 IPO早知道消息, 上海库萨科技有限公司(以下简称 "库萨科技") 日前 完成数千万元 Pre-A 轮融资。本轮融资由金水湖创投领投,融玺创投和无锡元启投资参与跟投,资金将用于现有无人清扫 机器人产品的升级迭代、新一代环卫机器人研发及市场拓展,持续推动机器人的规模化应用。 金水湖创投投资总监曾润来表示:作为本轮领投方,我们坚定看好库萨科技重塑城市服务底层的战略 价值 ——其以"轻图+视觉"融合架构在开放场景验证厘米级贴边清扫技术,成立不到两年即实现L4 级机器人量产及全国20城部署,帮助环卫作业运营成本降低40%以上;我们预判,团队技术闭环与 商业化模式的协同演进,将加速推动无人环卫成为智慧城市新基建的核心服务节点,并为城市管理提 供可扩展的数字化基础设施。 融玺创投高级投资经理张哲表示:现阶段环卫仍属于人力密集型行业,无人驾驶环卫机器人的引入, 有效减轻了工人劳动强度,提升了作业安全性与精准度, ...
研判2025!中国三维视觉数字化产品行业发展历程、产业链及市场规模分析:行业爆发式增长,技术革新与产业变革共筑黄金发展期[图]
Chan Ye Xin Xi Wang· 2025-06-19 01:44
内容概况:中国三维视觉数字化产品行业正迎来黄金发展期。2024年,中国三维视觉数字化产品行业市 场规模约为29亿元,同比增长34.72%。这一增长得益于多重因素驱动:新能源汽车产业链爆发式增 长,带动电池模组检测、汽车白车身测量等工业级需求激增;清洁能源领域国家战略推动,使能源电力 设备三维检测需求持续释放;同时,AI+3D视觉技术融合催生新场景,如医疗正畸数字化、文物三维重 建等非工业领域应用也在蓬勃发展。 三维视觉数字化产品是指利用光学原理、计算机视觉、传感器技术及人工智能算法,在不接触物体的情 况下,通过扫描获取其空间几何形状、纹理、颜色等属性,并转化为计算机可处理的数字化三维模型或 数据的技术设备及配套软件。根据应用场景、精度需求及技术原理,三维视觉数字化产品可划分为工业 级产品、专业级产品和商业级产品。 二、行业发展历程 中国三维视觉数字化产品行业发展主要经历了四个阶段。1980年至2000年的萌芽期,1980年代,三维扫 描技术诞生,通过激光或结构光实现物体表面数据采集,但精度与效率受限,主要应用于科研及高端制 造领域。接触式三坐标测量机(CMM)成为主流,精度达微米级,但依赖实验室环境且操作复杂 ...