Workflow
具身智能之心
icon
Search documents
3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%
具身智能之心· 2025-06-26 14:19
更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 【导读】 中科院自动化所提出BridgeVLA模型,通过将3D输入投影为2D图像并利用2D热图进行 动作预测,实现了高效且泛化的3D机器人操作学习。实验表明,BridgeVLA在仿真和真实场景中 均展现出卓越的性能和数据效率,仅需3条轨迹即可在基础任务中达到96.8%的成功率。 近年来,视觉-语言-动作(VLA)模型在机器人操作任务中大放异彩,成为推动通用机器人操作的 重要引擎。 但现有的VLA模型,大多只以2D信息作为输入,且需要大量的机器人数据进行微调; 反观以PerAct,RVT-2为代表的3D操作策略,通常仅需要10条轨迹就能够取得不错的效果,因 此,一个很自然的想法是,是否能将现有的2D VLA升级为3D VLA,使其同时兼具2D VLA的效果 以及3D操作策略的效率? 作者丨 新智元 编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 2D VLA的泛化,3D Policy的效率,这下全部打包带走! 缩小VLM和VLA之间的迁 ...
今年大火的目标导航到底是什么?从目标搜索到触达有哪些路线?
具身智能之心· 2025-06-26 14:19
目标驱动导航,赋予机器人自主完成导航目标 具身导航作为具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱。目标驱动导航(Goal-Oriented Navigation)通过赋予机器人自主决策能 力,是具身导航中最具代表性的方向。 目标驱动导航要求智能体在陌生的三维环境中,仅凭目标描述(如坐标、图片、自然语言)等,即可自主完成环境探索与 路径规划。 与传统视觉语言导航(VLN)依赖显式指令不同,目标驱动导航系统需要实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁:当人类下达"去厨房拿可乐"的指 令时,机器人需自主完成语义解析(识别厨房空间特征与可乐视觉属性)、环境建模(构建家居场景的空间拓扑)以及动态决策(避开移动的人类或宠物),这 背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破。 目标驱动导航技术已在多个垂直领域实现产业化落地。在终端配送场景中,该技术与社交导航算法结合,使机器人具备应对动态环境和人际交互的能力:美团无 人配送车通过动态路径重规划在复杂城市环境中执行递送任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署。在医疗、酒店及餐饮场景,嘉 ...
思岚发布首个消费级水下激光雷达品类-RPLIDAR U1
具身智能之心· 2025-06-26 14:19
以下文章来源于思岚科技 ,作者SLAMTEC 思岚科技 . 致力于提供机器人核心传感器激光雷达、自主定位导航解决方案SLAMWARE以及机器人通用底盘产品 很荣幸的向大家宣布: 业内首个消费级水下激光雷达、RPLIDAR家族新成员,RPLIDAR U1正式发布! 从此,水下世界也将开启高精度激光SLAM导航时代。 体积小巧,面向消费级应用 行业内水下激光雷达的相关研究其实已经开展了多年,到目前为止,现有的水下激光雷达大多体积巨大并 且成本高昂。他们并不适合在日常消费和商业应用中采用。 RPLIDAR U1首次将水下激光雷达带入消费级应用门槛 。其尺寸只有乒乓球大小,可以非常方便的安装在 各类设备当中。 更重要的是,RPLIDAR U1通过创新的技术创新,使得其成本可以满足消费类产品的使用。 全新的系统架构,不仅仅只是防水 可能有小伙伴要问了,这不简单么,只要做好防水,把激光雷达放水里不就可以吗? 这还真不行,由于水介质特性, 传统的激光雷达在水里将遭遇探测距离大幅下降、出现噪点、测距精度过 低等多重打击 。这便是到目前,水下世界中,大多还是采用声纳这类传统低精度的探测手段,水下机器人 难以像在地面上那样进行高 ...
ICCV 2025放榜!录取率24%,夏威夷门票你抢到了吗?
具身智能之心· 2025-06-26 14:19
>> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 ICCV 2025 将于 10 月 19 日至 25 日在美国夏威夷举行。刚刚,ICCV 官方向投稿者发送了今年论文 接收结果的通知。 数据显示,今年大会共收到了 11239 份有效投稿,所有投稿均已进入审稿流程。程序委员会推荐录用 2699 篇论文,最终录用率为 24%。 对比前几届数据,2025 年的投稿量几乎接近 2019 年的三倍,这反映了计算机视觉领域的快速扩张和 学术研究的日益活跃。 尽管投稿数量大幅增加,ICCV 的录用率在过去几年中保持了相对稳定,基本维持在 25% - 26% 的 区间内。 继 CVPR 2025 之后,ICCV 2025 会议也实施了一项旨在强化问责制与诚信的新政策。程序委员会主 席团识别出了 25 名极不负责任的审稿人,并因此对与他们相关的 29 篇论文进行了直接拒稿处理。 这些被拒的论文中,有 12 篇若无此关联本应被录用,但这也引发了争议。 作者丨 机器之心 编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能 ...
RoboSense 2025 机器感知挑战赛正式启动
具身智能之心· 2025-06-25 13:52
面向现实世界的机器人感知评测任务,五大赛道,全链路挑战,全球征集解决方案! 为什么需要 RoboSense? 在机器人系统不断迈向真实世界的进程中,感知系统的稳定性、鲁棒性与泛化能力正成为制约其部署能力 的关键因素。面对动态人群、恶劣天气、传感器故障、跨平台部署等复杂环境条件,传统感知算法往往面 临性能大幅下降的挑战。 为此, RoboSense Challenge 2025 应运而生。该挑战赛旨在系统性评估机器人在真实场景下的感知与理解 能力,推动多模态感知模型的稳健性研究,鼓励跨模态融合与任务泛化方向的创新探索。 | Registration | From June 2025 | | --- | --- | | Competition Server Online | June 15th, 2025 | | Phase One Deadline | August 15th, 2025 | | Phase Two Deadline | September 15th, 2025 | | Award Decision @ IROS 2025 | October 19th, 2025 | 该赛事由新加坡国立大学、南 ...
同济大学最新!多模态感知具身导航全面综述
具身智能之心· 2025-06-25 13:52
作者丨 视觉语言导航 编辑丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 主要贡献 研究背景 | Task | PointNav | ImageNav | ObjectNav | Audio-GoalNav | | --- | --- | --- | --- | --- | | Description | Navigate to a | Navigate to a | Navigate to a | Navigate to | | | specific 3D point | location matching | specific object. | sound sources. | | | in space. | a visual image. | | | | Sensory Inputs | Visual (RGB, | Visual | Visual (Object | Visual (RGB-D) | | | Depth, ...
重磅分享!A0:首个基于空间可供性感知的通用机器人分层模型
具身智能之心· 2025-06-25 13:52
点击下方 卡片 ,关注" 具身智能之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 由无界智慧(Spatialtemporal AI)团队推出的A0模型,是首个基于空间可供性感知的通用机器人分层扩散 模型,通过具身无关的可供性表征 (Embodiment-Agnostic Affordance Representation) 实现了跨平台的通 用操作能力,模型框架和代码等已经开源。 论文链接:https://arxiv.org/abs/2504.12636 项目主页:https://a-embodied.github.io/A0/ 机器人操作面临的核心挑战 在机器人技术快速发展的今天,通用化操作能力始终是制约行业发展的关键瓶颈。想象一下,当你让机器 人"擦干净白板"时,它需要准确理解应该在何处施力("where"),以及如何移动抹布("how")。这正是 当前机器人操作面临的核心挑战——空间可供性感知理解不足。 现有方法主要分为两类:基于模块化的方法和端到端的视觉-语言-动作(VLA)大模型。前者虽然能利用视 觉基础模型进行空间理解,但对物体可供性的捕捉有限;后者虽能直接生成动作,却缺乏对空间 ...
今年秋招靠什么卷赢那些top实验室啊?
具身智能之心· 2025-06-25 08:24
这几年以自动驾驶和具身智能为主线的AI技术不断突破,撑起了近一半的技术路线和融资金额。从L2~L4自 动驾驶功能的不断量产到人形机器人完成跳舞、四足机械狗在沙漠与丛林跳跃。很幸运能够完整的经历这一 发展周期,我们非常清晰行业对技术和人才的需求。 做了3年多的技术自媒体,在自驾、具身智能、3D视觉、机器人领域,我们沉淀了大量的内容。但后期陆续 收到了许多同学关于就业的求助,谈薪、避坑、职位选择、跨行等都是大家很关注的问题。我们一直想给大 家这样一个平台,让需要就业的同学能够快速匹配到自己的岗位,事半功倍!近半年的筹划,我们推出了 AutoRobo知识星球,一个覆盖机器人、自动驾驶、具身智能方向的求职社区! 招聘信息 新人微信扫码加入 AutoRobo知识星球 这是一个给自动驾驶、具身智能、机器人方向同学求职交流的地方,目前近1000名成员了,成员范围包含已 经工作的社招同学,如地平线、理想汽车、华为、小米汽车、momenta、元戎启行等公司。同时也包含2024 年秋招、2025年秋招的小伙伴,方向涉及自动驾驶与具身智能绝大领域。 星球内部有哪些内容?这一点结合我们已有的优势,给大家汇总了面试题目、面经、行业研报 ...
显示端到端VLA是什么?有哪些方法?
具身智能之心· 2025-06-25 08:24
什么是显示端到端VLA,提到显示,这一点和隐式是对立的。上一期分享,我们分享了隐式端到端的模型定 义,显示端到端VLA模型视频生成GOAL,明确生成了未来机械臂如何运动的图像!可以浏览下图! 其中还涉及了一个比较重要的概念:逆运动学。 逆运动学 逆运动学主要应用在机器人学、动画学和计算机图形学中,与经典运动学相对。它的目标是根据目标位置,计 算物体(如机械臂或骨骼系统)的各个关节应该如何运动才能到达该目标。 列入在机器人领域,逆运动学会回答这样的实际问题:机械臂的末端(手爪)需要到达某个指定位置,那么每 个关节应该如何旋转。 逆运动学的核心步骤: 已知信息: 求解: 利用矩阵、三角学或迭代方法,计算每个关节的角度或未知,使得末端能够到达目标点。 多解性问题: 逆运动学通用会有多个解(甚至没解),需要在可能的解中选择一个最优解(如最小能量消耗或最自然运 动)。 主要工作一览 3)LAPA 1)开山之作:UniPi 将序列决策问题转化为文本条件视频生成问题:给定文本编码的目标描述,规划器会合成一组未来帧来描绘其 计划执行的行动序列,随后从生成的视频中提取控制动作。通过以文本作为底层目标描述,我们能够自然而然 地实 ...
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
具身智能之心· 2025-06-24 14:29
在近20年AI发展的路线上,我们正站在⼀个前所未有的转折点。从早期的符号推理到深度学习的突破,再 到如今⼤语⾔模型的惊艳表现, AI 技术的每⼀次⻜跃都在重新定义着⼈类与机器的关系。⽽如今,具身智 能正在全面崛起。 想象⼀下这样的场景:⼀个机器⼈不仅能够理解你的语⾔指令,还能在复杂的现实环境中灵活移动,精确 操作各种物体,甚⾄在⾯对突发情况时做出智能决策。这不再是科幻电影中的幻想,⽽是正在快速成为现 实的技术⾰命。从Tesla的Optimus⼈形机器⼈到Boston Dynamics的Atlas,从OpenAI的机械⼿到Google的RT- X项⽬,全球顶尖的科技公司都在竞相布局这⼀颠覆性领域。具身智能的核⼼理念在于让AI系统不仅拥 有"⼤脑",更要拥有能够感知和改变物理世界的"身体"。这种AI不再局限于虚拟的数字空间,⽽是能够真 正理解物理定律、掌握运动技能、适应复杂环境。它们可以在⼯⼚中进⾏精密装配,在医院⾥协助⼿术操 作,在家庭中提供贴⼼服务,在危险环境中执⾏救援任务。这种技术的潜在影响⼒是⾰命性的:它将彻底 改变制造业、服务业、医疗健康、太空探索等⼏乎所有⾏业。 然⽽,要实现真正的具身智能,还⾯临着前 ...