Workflow
具身智能之心
icon
Search documents
AI Lab最新InternSpatia:VLM空间推理数据集,显著提升模型能力
具身智能之心· 2025-06-24 14:09
背景与动机 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 当前视觉语言模型(VLMs)在空间推理任务(如物体位置/大小比较、多视角关系理解)中存在显著不 足。现有数据集存在三大局限: 点击下方 卡片 ,关注" 具身智能 之心 "公众号 核心贡献 作者丨 Nianchen Deng等 1. InternSpatial数据集 编辑丨具身智能之心 规模与结构 : 指令多样性 :支持19种指令格式(Table 1对比) 1. 场景单一性 :数据源集中于室内/室外场景(如SpatialVLM、OSD),缺乏驾驶、具身导航等多样化环 境; 2. 指令格式受限 :仅支持自然语言或区域掩码(如SpatialQA仅用文本,OSD依赖掩码),难以覆盖真实 应用中的多样化查询形式; 3. 多视角监督缺失 :现有数据聚焦单图推理(占比超90%),缺乏跨视角时空关系建模能力。 视觉格式 :原始图/带边界框图/掩码图/编号物体图(Figure 2示例) 1200万QA对(950万单视图 + ...
具身领域的目标导航到底是什么?从目标搜索到触达有哪些路线?
具身智能之心· 2025-06-24 14:09
目标驱动导航,赋予机器人自主完成导航目标 具身导航作为具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱。目标驱动导航(Goal-Oriented Navigation)通过赋予机器人自主决策能 力,是具身导航中最具代表性的方向。 目标驱动导航要求智能体在陌生的三维环境中,仅凭目标描述(如坐标、图片、自然语言)等,即可自主完成环境探索与 路径规划。 与传统视觉语言导航(VLN)依赖显式指令不同,目标驱动导航系统需要实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁:当人类下达"去厨房拿可乐"的指 令时,机器人需自主完成语义解析(识别厨房空间特征与可乐视觉属性)、环境建模(构建家居场景的空间拓扑)以及动态决策(避开移动的人类或宠物),这 背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破。 目标驱动导航技术已在多个垂直领域实现产业化落地。在终端配送场景中,该技术与社交导航算法结合,使机器人具备应对动态环境和人际交互的能力:美团无 人配送车通过动态路径重规划在复杂城市环境中执行递送任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署。在医疗、酒店及餐饮场景,嘉 ...
【万字长文】独家圆桌对话:具身下一站,我们究竟需要怎样的本体?
具身智能之心· 2025-06-24 14:09
圆桌发起人:赵仲夏 格灵深瞳算法总监 北京大学和智源研究院访问学者(小红书id:夏染) 圆桌嘉宾:智元机器人遥操负责人 王文灏 圆桌嘉宾:清华大学自动化系副教授,灵御智能首席科学家 莫一林(知乎ID:莫一林) 圆桌主持人:知乎大V,沃尔沃哲晰软件(Zenseact)深度学习负责人 刘斯坦 圆桌主持人:具身智能之心 Gloria 关关关关关关关关于于于于于于于于这这这这这这这这场场场场场场场场 """""""" 一一一一一一一一拍拍拍拍拍拍拍拍即即即即即即即即合合合合合合合合 """""""" 圆圆圆圆圆圆圆圆桌桌桌桌桌桌桌桌的的的的的的的的起起起起起起起起源源源源源源源源和和和和和和和和嘉嘉嘉嘉嘉嘉嘉嘉宾宾宾宾宾宾宾宾 1 于是三天后的晚上,我们定下了这桌有关具身本体构型的"好饭"! 本场圆桌畅谈不少深度的好东西,比如: 具身智能之心 Gloria 本场圆桌起源于一个普通的周末清晨。本次发起人赵仲夏老师拉着我畅谈了半个小时的具身本体未定论,当时饥饿又不清醒的我听完后非常酣畅淋漓。 是啊,"入局"这么久,见过和摸过的本体很多,到底哪种构型才是具身从业者需要的呢? 于是我们一拍即合,当机立断: 这个主题,必须来一 ...
一篇好的具身论文应该是怎么样的?
具身智能之心· 2025-06-24 07:27
最近收到了许多同学在论文发表上的求助,学校绕不开一篇三区论文硕士毕业,没有三篇CCF-A博 士都毕不了业,老师对这个新的方向不熟悉,开展不了工作。一直在为论文选题绞尽脑汁,实验设 计总遇瓶颈,写作逻辑混乱不清,投稿屡屡被拒! 尤其是在前沿且复杂的自动驾驶、具身智能、机 器人领域,真的有点力不从心。 一篇好的论文需要有好的切入点,哪个方向更容易产出,这一个判断尤为重要!剩下的就是怎么论 证这个idea work,比当前SOTA有效(如果是A类会议)。实验的设计也非常重要,特别是消融实 验,要摸清是什么因素导致的提升。后期的写作技巧,取决于你是否能够让审稿人眼前一亮,如何 回复审稿意见也是需要经验的。 筹备了近1年,我们的论文辅导正式推出了,主要面向自动驾驶/具身智能/机器人领域。 我们是谁? 国内最大的AI类技术自媒体平台,IP包含自动驾驶之心/具身智能之心/3D视觉之心等平台,拥有国内 最顶尖的学术资源。深耕 自动驾驶、具身智能、机器人 方向多年。我们深刻理解这些交叉学科的挑 战与机遇,更明白一篇高质量论文对于学生(尤其是硕博生)学业和未来发展的重要性。 我们目前有300+专职于自动驾驶/具身智能方向的老师。 ...
具身领域的目标导航到底是什么?有哪些主流方法?
具身智能之心· 2025-06-23 14:02
目标驱动导航,赋予机器人自主完成导航目标 具身导航作为具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱。目标驱动导航(Goal-Oriented Navigation)通过赋予机器人自主决策能 力,是具身导航中最具代表性的方向。 目标驱动导航要求智能体在陌生的三维环境中,仅凭目标描述(如坐标、图片、自然语言)等,即可自主完成环境探索与 路径规划。 与传统视觉语言导航(VLN)依赖显式指令不同,目标驱动导航系统需要实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁:当人类下达"去厨房拿可乐"的指 令时,机器人需自主完成语义解析(识别厨房空间特征与可乐视觉属性)、环境建模(构建家居场景的空间拓扑)以及动态决策(避开移动的人类或宠物),这 背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破。 目标驱动导航技术已在多个垂直领域实现产业化落地。在终端配送场景中,该技术与社交导航算法结合,使机器人具备应对动态环境和人际交互的能力:美团无 人配送车通过动态路径重规划在复杂城市环境中执行递送任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署。在医疗、酒店及餐饮场景,嘉 ...
从刮胡子机器人到双臂神技!这家具身独角兽引爆亿级美元融资热潮
具身智能之心· 2025-06-23 13:54
作者丨 新智元 编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 【导读】 具身智能可太火了!Generalist AI发布了一段震撼视频,机器人完成高难度任务,全程 动作丝滑流畅。而这背后,竟是来自一款国内自研「拂晓」仿人自适应机器人。 就在刚刚,这家 公司又宣布了新一轮的融资。 日前,由前DeepMind科学家Pete Florence和Andy Zeng创立,且已获英伟达投资的AGI初创企业 Generalist AI发布了一段视频,展示其训练AI模型进行物理世界交互的进展。 不同于以往人形机器人大秀拳脚,视频中,两对机械臂在完全自主状态下完成多个高难度双臂协同操 作,展示出丝滑流畅的手眼协同、持续接触的复杂精细操作能力。 动图经过加速 Generalist AI的演示展示了具身智能技术在「物理交互灵巧性」与「感知—运动策略」上的重大突 破;通过端到端的模型训练,让机器人不再只是预设动作的「机械臂」,而是融合视觉、力觉进行实 时策 ...
等了十年,特斯拉Robotaxi终于上线!马斯克:仅需4.2美元一口价
具身智能之心· 2025-06-23 13:54
作者丨 机器之心 编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 马斯克终于不「画饼」了!4.2美元坐特斯拉Robotaxi初体验:平稳但尚不成熟。 马斯克也在 X 上发文祝贺: 同时还透露,首批乘客将以「固定价格」4.20 美元搭乘。 马斯克兑现了承诺。 早在十年前,埃隆・马斯克就曾多次表示,特斯拉有能力推出无人驾驶服务,但后来却食言了。上周日,特斯拉终于在德克萨斯州奥斯汀正式启动了自动驾驶出 租车服务。 当然也可以付小费。 评论区的网友一片欢呼: 限定试运营,尚未全面开放 目前,特斯拉的 Robotaxi 服务 仅限受邀用户使用 ,并未向公众全面开放。首批试乘者主要为支持特斯拉的知名社交媒体博主和科技内容创作者,因此外界对其初 步评价的客观性仍持保留态度。至于该服务何时正式向公众开放,特斯拉尚未给出明确时间表。 此次小规模试运营共投入约 10 至 20 辆贴有 「Robotaxi」标识的 Model Y 车辆。而去年首次亮相、备受 ...
SwitchVLA:无需额外数据采集,即可实时动态任务切换的轻量化VLA模型
具身智能之心· 2025-06-23 13:54
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Meng Li等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 1简Intr 介 oduction - 基于模仿学习,目前主流的多任务 VLA 模型及其训练方式无法很好的应对任务变更问题。比如, 当任务A进行一半时,此时切换任务B,大部分方法解决该问题的能力十分薄弱。 - 诸如此类问题我们定义为 Task Switching ,即"任务切换"。为解决该问题,我们设计了执行感知 (Execution-Aware)机制,通过极简的形式表示了任务切换的情况。在模型侧采用了轻量化的网络 架构,并设计了新的训练范式及数据采样算法。 - 我们的方法 轻量 (0.27B)且 无需额外收集遥操数据 ,便可实现任务切换功能,并大幅超越现有 SOTA VLA 方法。 | - 论文地址:https://arxiv.org/abs/2506.03574 | - 项目网站:https://switchvla. ...
入门具身离不开3个要素,数据+算法+本体
具身智能之心· 2025-06-23 13:54
数据部分:遥操采集依赖本体,成本较高。但前处理和后处理较为简单,质量也最高,适用于机 械臂。VR 遥操+动捕手套方案,操作员会戴上 VR 眼镜用于和机器人的视野对齐,动捕手套捕捉 的手指运动转发到灵巧手上,适用于人形机器人。 算法部分:VLN、VLA、Diffusion Policy、强化学习等是具身常用的技术栈,方法更新较快,需 要保持paper reading。 硬件部分:预算足的实验室有经费购买20-30w的本体,预算不足的同学依赖3D打印自己制作机械 臂或者采购性价比高的硬件平台,甚至在仿真里面做,研究比较受限。 我们的具身社区针对这三个大的模块做了比较充足的分享,包括数据采集方案、本体、仿真以及 算法部分,同时也给大家提供了几款高性价比的机械臂平台,助力研究。 入门具身离不开3个要素,数据+算法+本体,说实话很多同学只懂算法,甚至说懵懵懂!数据的采 集更是需要经验,遥操和retargeting方案,很多人采集不到真实有效的数据。本体更是许多同学触 不可及的东西,高性价比的平台和仿真是很多同学入门的第一步。 社区目标是3年内打造一个万人聚集的地方,这里也非常欢迎优秀的同学加入我们(目前已经有很 多具身 ...
隐式端到端VLA有哪些方法?领域一般是怎么分类的?
具身智能之心· 2025-06-22 14:47
1)视觉特征提取模块 (V) 隐式端到端VLA模型指的是没有明确生成了未来机械臂如何运动的图像。和显示、分层VLA方法有所不同,隐 式端到端VLA基础模块主要包含视觉特征提取模块(V)、视觉语言的联合特征学习(V+L)、视觉语言动作的 联合训练(V+L+A)。 3) 视觉语言动作的联合训练 (V+L+A) 通常情况: ResNet-18 2. 预训练模型: R3M, VC-1, Voltron, Theia 追求速度: Efficienet 为了和文本好对齐: CLIP 为了用大模型: CLIP, SigLIP 这就是端到端VLA要做的事情,不过可以给大家一个直观的感受!对于机器人任务如何得到VL--A的映射呢?找 到V中对action 有用的区域。 2)视觉语言的联合特征学习(V+L) 对于机器人任务如何处理同时处理视觉和文本信息呢?小模型的选择:FiLM,同时也可以依旧用Perceiver结 构。大模型的选择:MLLM基座(Paligemma )。 4)隐式端到端VLA怎么分类? 根据模型大小:大模型/小模型VLA; 根据架构差异:Transformer-based/Diffusion-based; 5) ...