具身智能之心

Search documents
港大强化学习驱动连续环境具身导航方法:VLN-R1
具身智能之心· 2025-07-04 09:48
作者丨 视觉语言导航 编辑丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 主要贡献 研究背景 作者:Zhangyang Qi , Zhixiong Zhang , Yizhou Yu , Jiaqi Wang , Hengshuang Zhao 单位: 香港大学, 上海AI实验室 论文标题:VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning 论文链接:https://arxiv.org/abs/2506.17221 项目主页:https://vlnr1.github.io/ 代码链接:https://github.com/Qi-Zhangyang/GPT4Scene-and-VLN-R1 提出VLN-R1框架 :利用大型视觉语言模型(LVLM)处理第一视角视频流,从而实现连续环境中的视觉语 言导航。与以往基于离散导航图的方法不同,VLN-R1能够生成连续的 ...
最新综述:从物理模拟器和世界模型中学习具身智能
具身智能之心· 2025-07-04 09:48
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Xiaoxiao Long等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与工作背景 本综述聚焦具身智能在机器人研究中的前沿进展,指出实现强大具身智能的关键在于物理模拟器与世界模 型的整合。物理模拟器提供可控高保真环境用于训练评估机器人智能体,世界模型则赋予机器人环境内部 表征能力以支持预测规划与决策。 文中系统回顾了相关最新进展,分析了两者在增强机器人自主性、适应性和泛化能力上的互补作用,探讨 了外部模拟与内部建模的相互作用以弥合模拟训练与现实部署的差距。此外,还提及维护了一个包含最新 文献和开源项目的资源库,网址为https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey, 旨在为具身 AI 系统的发展提供全面视角并明确未来挑战。 一些介绍 随着人工智能与机器人技术的发展,智能体与物理世界的交互成为研 ...
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-03 13:36
职位描述 我们正在寻找一位杰出的研究员/科学家,加入我们的前沿探索团队,共同定义和构建下一代自动驾驶与机器人 的"大脑"。您将致力于突破性的具身基座模型 (Embodied Foundation Model) 的研究,该模型将深度融合视觉-语 言-行动 (VLA) 能力,并具备卓越的空间感知与空间推理能力。 核心职责包括 前沿算法研究与构建:负责设计和实现领先的具身多模态大模型。您的研究将不仅限于现有的VLA框架,更将 探索如何构建能够理解复杂三维世界、并进行长时序、多步骤任务规划的世界模型 (World Model)。 核心模型能力攻关:主导模型在以下关键能力上的突破: 多模态场景理解:融合视觉、语言、雷达等多源信息,实现对动态、开放环境的深刻理解和空间感知。 学习与适应机制:深入研究强化学习 (RL)、模仿学习 (IL) 及自监督学习方法,使模型能从海量数据和与环境的 交互中持续学习和进化。 技术愿景与路线图:主导构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支撑,并 探索其在自动驾驶和通用机器人领域的统一应用潜力。 复杂语义推理与决策:让模型能够理解模糊、抽象的人类指令,并结合对 ...
卡耐基梅隆大学!Human2LocoMan:通过人类预训练学习多功能四足机器人操控
具身智能之心· 2025-07-03 13:36
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yaru Niu等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与工作背景 四足机器人虽在复杂环境中移动能力出色,但赋予其可扩展的自主多功能操作技能仍是重大挑战,为此本 文提出一种用于四足操作的跨实体模仿学习系统,该系统利用从人类和配备多种操作模式的四足机器人 LocoMan 收集的数据,通过开发远程操作和数据收集管道来统一并模块化人类和机器人的观察空间与动作 空间,同时提出高效模块化架构以支持不同实体间结构化模态对齐数据的联合训练和预训练,还构建了首 个涵盖单手和双手模式下各种家庭任务的 LocoMan 机器人操作数据集及相应人类数据集;实验在六个真实 世界操作任务中验证,与基线相比整体成功率平均提升 41.9%、分布外场景提升 79.7%,利用人类数据预训 练后整体成功率提升 38.6%、分布外场景提升 82.7%,且仅用一半机器人数据就能持续实现更好性能。 我们的代码、 ...
具身智能,到了交卷的时刻了。。。
具身智能之心· 2025-07-03 08:22
本体的多样化催促各类数据的共用,包括双足、轮式、轮足复合等形态的数据如何从不同关节、执行器 抽象出共同特征至关重要! 以上是我们在具身智能之心知识星球中的分享,更多干货欢迎扫码加入,和近200家具身公司、研究机 构成员一起交流! 点击下方 卡片 ,关注" 具身智能 之心 "公众号 具身智能无疑是这两年最火的技术关键词。从沉寂到疯狂,再到冷静。今年上半年很多家公司都 在尝试具身量产交卷。未来行业不再是 随便哪家发出来的 demo 和 pr 稿就可以引起轰动,业内技 术人才很快就可以破案,讲的好不如真可靠。最近像地瓜机器人演示了宇树Go2四足机器狗,效 果已经可圈可点,相信未来会有更多的量产产品问世! 可以说感知能力升级与多模态融合是具身技术路线发展的重要一环,在视觉感知之外,触觉感知则是这 两年发力的重点,特别是灵巧手领域,力控能大幅提升操作的精细度及结果反馈能力。多模态传感器融 合技术使机器人能够同时处理视觉、听觉、触觉等多种信息,这种融合不仅体现在硬件层面,更在于算 法层面的深度整合。大幅提升了环境感知的准确性和全面性。 大模型驱动的大脑算法正在不断地提升机器人对世界的经验认知与理解。特别是在人形机器人领域 ...
RoboScape:基于物理信息的具身世界模型,动作可控性提升68.3%
具身智能之心· 2025-07-02 10:18
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yu Shang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 根源在于现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness。此前整合物理知识的尝试分为三类: 物理先验正则化(局限于人类运动或刚体动力学等窄域)、基于物理模拟器的知识蒸馏(级联 pipeline 计 算复杂)、材料场建模(限于物体级建模,难用于场景级生成)。因此,如何在统一、高效的框架中整合 物理知识,成为亟待解决的核心问题。 核心方法 问题定义 聚焦机器人操作场景,学习具身世界模型 作为动力学函数,基于过去的观测 和机器人动作 预测 下一个视觉观测 ,公式为: 研究背景与核心问题 在具身智能领域,世界模型作为强大的模拟器,能生成逼真的机器人视频并缓解数据稀缺问题,但现有模 型在物理感知上存在显著局限。尤其在涉及接触的机器人场景中,因缺乏对3D几何和运动动力学的建模能 力,生成的视频常出现不真实的物体变形或 ...
VQ-VLA:大规模合成数据驱动动作tokenizer,推理速度提升近三倍
具身智能之心· 2025-07-02 10:18
1. 动作表示效率低 :传统连续动作离散化方法(如均匀分桶)难以捕捉复杂时空动态,导致长时域任务 中累积误差增大 2. 数据依赖瓶颈 :真实机器人数据采集成本高,限制模型泛化能力 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yating Wang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 背景 视觉-语言-动作模型(VLA) 在多模态机器人控制中面临两大挑战: 核心贡献 通用动作分词器框架 :提出基于卷积残差VQ-VAE的通用动作分词器框架,替代传统分桶离散化方法。 合成数据驱动缩放 :首次证明动作轨迹的合成-真实域差异极小( Table 3 显示纯合成数据训练的VQ 在真实任务接近混合数据性能),利用超大规模合成数据(100倍于先前工作)训练分词器。 性能全面优化 :显著提升VLA模型的三项核心指标: 成功率 :长时域任务成功率最高提升30%(真实机器人实验 Figure 3 ) 关键技术方案 1. 卷积残差VQ-VA ...
机器人导航的2个模块:视觉语言导航和目标导航有什么区别?
具身智能之心· 2025-07-02 10:18
点击下方 卡片 ,关注" 具身智能 之心 "公众号 说到机器人导航,技术路线已经逐渐从早期传统的建图定位导航,到后期基于大模型方案的导航演变。而 基于大模型方案的导航又分为视觉语言导航和目标导航! 如果说一句话说明这两个任务的区别,视觉语言导航是""听懂指令走对路",目标导航是""看懂世界自己找 路"。 视觉语言导航是什么? 视觉语言导航本质上是个指令跟随的任务。任务囊括了三个方面,理解语⾔指令、感知周围环境,规划运 动策略。一般来说,VLN机器人系统主要由视觉语言编码器,环境历史信息表征,以及动作策略三个模块 构成。 机器人从环境中获取语⾔指令和每⼀步的视觉观测,首先需要同时视觉语⾔编码器从中压缩出有效信息。 采用怎样的编码器,视觉和语言的表征是否应该投影到⼀个共同的表征空间,是否应该首先对语言指令在 指令级别的拆分然后在压缩是其中的关键问题。这其中,采用在大规模数据集上预训练的视觉语⾔模型, 利用LLM做指令拆解和任务拆分是目前主流且前沿的范式。 VLN机器⼈需要逐步获得视觉观测,执行动作,获得新的观测,以此循环,这天然是⼀个序列决策的任 务。那么如何累积历史上获得的信息,判断当前执行到任务的哪个阶段,为 ...
清华大学最新!RoboScape:基于物理信息的具身世界模型,动作可控性提升68.3%
具身智能之心· 2025-07-02 07:44
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yu Shang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 研究背景与核心问题 在具身智能领域,世界模型作为强大的模拟器,能生成逼真的机器人视频并缓解数据稀缺问题,但现有模 型在物理感知上存在显著局限。尤其在涉及接触的机器人场景中,因缺乏对3D几何和运动动力学的建模能 力,生成的视频常出现不真实的物体变形或运动不连续等问题,这在布料等可变形物体的操作任务中尤为 突出。 基于自回归Transformer框架,实现帧级动作可控的机器人视频生成,核心是通过两个物理感知辅助任务整 合物理知识(figure 2): 根源在于现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness。此前整合物理知识的尝试分为三类: 物理先验正则化(局限于人类运动或刚体动力学等窄域)、基于物理模拟器的知识蒸馏(级联 pipeline 计 算复杂)、材料场建模(限于物体级建模,难用于场景级生成)。因此, ...
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-01 12:07
核心职责包括 前沿算法研究与构建:负责设计和实现领先的具身多模态大模型。您的研究将不仅限于现有的VLA框架,更将 探索如何构建能够理解复杂三维世界、并进行长时序、多步骤任务规划的世界模型 (World Model)。 核心模型能力攻关:主导模型在以下关键能力上的突破: 多模态场景理解:融合视觉、语言、雷达等多源信息,实现对动态、开放环境的深刻理解和空间感知。 职位描述 我们正在寻找一位杰出的研究员/科学家,加入我们的前沿探索团队,共同定义和构建下一代自动驾驶与机器人 的"大脑"。您将致力于突破性的具身基座模型 (Embodied Foundation Model) 的研究,该模型将深度融合视觉-语 言-行动 (VLA) 能力,并具备卓越的空间感知与空间推理能力。 复杂语义推理与决策:让模型能够理解模糊、抽象的人类指令,并结合对物理世界的空间推理,生成安全、合 理、可解释的行动序列。 学习与适应机制:深入研究强化学习 (RL)、模仿学习 (IL) 及自监督学习方法,使模型能从海量数据和与环境的 交互中持续学习和进化。 技术愿景与路线图:主导构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支 ...