具身智能之心

Search documents
隐式端到端VLA有哪些方法?领域一般是怎么分类的?
具身智能之心· 2025-06-22 14:47
1)视觉特征提取模块 (V) 隐式端到端VLA模型指的是没有明确生成了未来机械臂如何运动的图像。和显示、分层VLA方法有所不同,隐 式端到端VLA基础模块主要包含视觉特征提取模块(V)、视觉语言的联合特征学习(V+L)、视觉语言动作的 联合训练(V+L+A)。 3) 视觉语言动作的联合训练 (V+L+A) 通常情况: ResNet-18 2. 预训练模型: R3M, VC-1, Voltron, Theia 追求速度: Efficienet 为了和文本好对齐: CLIP 为了用大模型: CLIP, SigLIP 这就是端到端VLA要做的事情,不过可以给大家一个直观的感受!对于机器人任务如何得到VL--A的映射呢?找 到V中对action 有用的区域。 2)视觉语言的联合特征学习(V+L) 对于机器人任务如何处理同时处理视觉和文本信息呢?小模型的选择:FiLM,同时也可以依旧用Perceiver结 构。大模型的选择:MLLM基座(Paligemma )。 4)隐式端到端VLA怎么分类? 根据模型大小:大模型/小模型VLA; 根据架构差异:Transformer-based/Diffusion-based; 5) ...
FindingDory:具身智能体记忆评估的基准测试
具身智能之心· 2025-06-22 10:56
点击下方 卡片 ,关注" 具身智能 之心 "公众号 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 一、研究背景与核心问题 长期记忆缺失 是当前具身智能体的关键瓶颈。尽管视觉语言模型(VLMs)在规划与控制任务中表现突 出,但其 处理跨时空的多模态观察数据 能力严重受限: 核心矛盾 :具身智能需整合长期历史经验(如"找到昨天未整理的玩偶"),但缺乏针对性评估框架。 二、基准设计创新点 2.1 任务架构 作者丨 Karmesh Yadav等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 动态环境交互 记忆推理验证 输入限制 :主流VLMs仅能处理数百张图像(远低于真实场景的千帧级输入) 评估缺陷 :现有视频QA基准(如EgoSchema)依赖选择题形式,无法评估 物体操纵/导航 等需细粒 度推理的具身任务 记忆-动作脱节 :传统方法孤立评估记忆召回与决策执行,忽视二者在具身环境中的耦合性 动态环境构建 :脚本代理在Habitat模拟器中执行物体抓取-放置(Pick-and-Place),产生 ...
上海交大最新!DyNaVLM:零样本、端到端导航框架
具身智能之心· 2025-06-22 10:56
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zihe Ji等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与优化目标 在自主智能体领域,导航是一项基础且关键的能力,它需要融合空间推理、实时决策以及对动态环境的适 应能力。尽管人类能在复杂环境中轻松导航,但在人工系统中复现这一能力仍面临巨大挑战。传统导航方 法常将问题分解为感知、推理、规划和控制等模块化组件,虽依赖专业算法处理子任务,但存在泛化性 差、可扩展性不足以及实际部署困难等问题,因其严重依赖特定任务的工程设计和僵化的流程。 近年来,视觉语言模型(VLM)的发展为导航领域带来了新的可能,它通过在单一框架内整合感知与推 理,为解决传统方法的弊端提供了新思路。然而,VLM在具身导航中的应用仍受限于空间粒度和上下文推 理能力的不足。基于此,本研究提出了DyNaVLM,这是一种零样本、端到端的导航框架,其核心目标是让 VLM无需微调或接触导航特定数据,就能直接作为导航策略使 ...
具身智能领域的行业周期有多久?
具身智能之心· 2025-06-22 03:59
昨天和朋友聊天,对比了自驾和具身的发展周期。自驾从15年许多硅谷的同学回来创业,到现在 规模化、商业化已经近10年了。然而机器人产业已经发展了很多年了,相比于自驾我们认为后续 更多是算法和数据上的突破(当然硬件也有,只是说已经取得了一定发展)。我们期望5-8年有真 的可以商业化落地的机器人,这一点要比自驾来得快些。 智元和宇树都在为上市做准备,如果真的有好消息,这对整个产业将会是一个极大的振奋。大家 更要抓住这一波行业的机会,对我们来说,我们也一直在探讨究竟要做一个什么样的具身社区? 能够承接学术和产业界!其中一个答案比较符合我们的思路,那就是一个能够凝聚行业人群、遇 到问题能够快速响应、影响到整个行业的地方。 我们目标是3年内打造一个万人聚集的具身社区,这里也非常欢迎优秀的同学加入我们。 我们和多 家具身公司搭建了学术+产品+招聘完整的桥梁和链路,同时内部在教研板块也基本形成了闭环 (课程 + 硬件 + 问答)。社区里也能看到很多最新的行业观点、技术输出。现在本体是怎么样 的?有哪些不足?数据采集的成功率和有效率怎么提升?sim2real怎么做的有效点?这些都是我们 一直关注的。 前面一直在想怎么帮助刚入门 ...
CVPR'25 | 感知性能飙升50%!JarvisIR:VLM掌舵, 不惧恶劣天气
具身智能之心· 2025-06-21 12:06
以下文章来源于AI生成未来 ,作者AI生成未来 AI生成未来 . 领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等AI领域前沿技术 编辑丨具身智能之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 论文链接: https://arxiv.org/pdf/2504.04158 项目主页: https://cvpr2025-jarvisir.github.io/ Github仓库: https://github.com/LYL1015/JarvisIR Huggingface Online Demo: https://huggingface.co/spaces/LYL1015/JarvisIR 背景与动机 在自动驾驶等现实应用场景中,视觉感知系统常常受到多种天气退化(如雨、雾、夜间、雪)的影响。 传统的单任务方法依赖特定先验知识,而 all-in-one 方法只能解决有限的退化组合同时又存在严重的 领域差异,难以应对复 ...
具身场景新框架!Embodied-Reasoner:攻克复杂具身交互任务
具身智能之心· 2025-06-21 12:06
点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 | 作者:Wenqi | Zhang | , | Mengna | Wang | , | Gangao | Liu | , | Xu | Huixin | , | Yiwei | Jiang | , | Yongliang | Shen | , | Guiyang | Hou | , | Zhe | Zheng | , | Hang | Zhang | , | Xin | Li | , | Weiming | Lu | , | Peng | Li | , | Yueting | Zhuang | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- ...
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能、场景、方法论全解析~
具身智能之心· 2025-06-21 12:06
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨具身智能之心 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近很多同学询问π0、π0.5、A0都是啥?用在什么地方?能实现哪些功能?方法论有啥不同?前面 刚开始听到这些,也一头雾水,今天为大家梳理下。 π₀模型结构 原文:π0: A Vision-Language-Action Flow Model for General Robot Control π₀的核心架构基于 预训练视觉语言模型(VLM) 和 Flow Matching 技术,具体包含以下关键组件: VLM backbone 动作专家(Action Expert) 跨具身训练(Cross-Embodiment Training) 整合 7 种机器人、68 项任务、超 10,000 小时数据(含开源 OXE 数据集),通过权重调整处理不 同机器人的动作空间差异(如零填充低维动作向量)。 训练流程 基于 PaliGemma V ...
近30家具身公司业务和产品一览
具身智能之心· 2025-06-20 03:07
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 x 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近很多同学找工作,正在问相关的公司和业务,今天具身智能之心为大家盘点下具身领域比较 有名的公司及其对应业务。所有内容出自国内首个具身全栈技术社区,具身智能之心知识星球, 欢迎扫码加入! 智元机器人 官网:https://www.zhiyuan-robot.com/ 宇树机器人(Unitree Robotics) 官网:https://www.unitree.com/cn 核心业务 :专注人形机器人研发,具身智能(Embodied AI)领域头部企业。 代表产品 : 远征A1、A2 :双足人形机器人,支持复杂地形行走、双手精细操作(如拧螺丝、插拔插 座)。 灵犀X1、X2: 全栈开源机器人。 EI-Brain :多模态AI系统,结合强化学习与视觉导航,实现自主决策。 技术亮点 :自研关节电机、实时运动控制算法,与比亚迪、宁德时代合作落 ...
EMBODIED WEB AGENTS:融合物理与数字领域以实现综合智能体智能
具身智能之心· 2025-06-20 00:44
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yining Hong等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 一、研究背景与核心问题 当前AI智能体存在严重的领域割裂: 网络智能体 (如搜索引擎代理)擅长处理数字信息,而 具身智能体 (如机器人)专注于物理交互,二者极少协同。这种割裂导致AI无法完成需要跨域协同的任务,例如: 人类智能天然融合物理与数字领域,而现有AI缺乏这种能力。研究团队提出 Embodied Web Agents (EWA) 新范式,旨在构建可无缝桥接物理具身与网络推理的智能体。 $$\cdots\stackrel{\rightharpoonup}{\mathrm{min}}\ \ \oint_{\partial\Omega}\stackrel{\sin\theta}{\partial\Omega}\stackrel{\sin\theta}{\partial\Omega}\stackrel{\sin\theta}{\partial\Omega} ...
VR-Robo:real2sim2real,机器人视觉强化学习导航和运动控制新范式!
具身智能之心· 2025-06-20 00:44
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Shaoting Zhu等 编辑丨具身智能之心 近年来,得益于强化学习与高性能仿真器的结合,足式机器人在自主运动控制方面取得了显著进展。然 而,当这些策略部署到现实世界中时,往往因"仿真到现实(Sim-to-Real)"存在差异而表现不佳。现有方 法难以复现真实场景中的复杂几何和视觉细节,限制了基于视觉感知的高层次任务(如目标导航)的开 展。为解决这一难题,我们提出了VR-Robo:一个面向足式机器人视觉导航与运动控制的"真实-仿真-真实 (Real-to-Sim-to-Real)"统一框架。 作者单位包括清华大学、普林斯顿大学、星海图、上海期智研究院和上海交通大学。 项目主页/代码(现已开源):https://vr-robo.github.io/ 相关工作 以往研究为缩小Sim-to-Real差距做了大量探索。包括: 但这些方法多依赖特定传感器,难以在高保真渲染和真实几何建模之间取得平衡。此外,许多方法仅支持 低层次的运动控制,尚未形成完整的感知-理解-行动闭环。 解决方案 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术 ...