Workflow
OpenVLA
icon
Search documents
VLA爆发!从美国RT-2到中国FiS-VLA,机器人的终极进化
具身智能之心· 2025-07-09 14:38
作者丨 新智元 编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 【导读】 2025年,全球具身智能赛道爆火,VLA模型成为了绝对的C位。从美国RT-2的开创性突 破,到中国最新FiS-VLA「快慢双系统」,VLA正以光速硬核进化。 2025年,具身智能可真是太火了。 而提到具身智能,不得不提——视觉语言动作模型(Vision-Language-Action,VLA)。 作为具身智能的核心驱动力,VLA正席卷全球,成为研究人员们的「新宠」。 论文链接: https://arxiv.org/pdf/2506.01953 从产业界到学术界,全球的主流公司与研究机构,都在加速向这一方向靠拢,达成了罕见的共识。 在硅谷,诸如谷歌DeepMind、Figure AI、Skild AI、Physical Intelligence等行业领军者,早已 开始发力押注VLA的未来。 几周前,谷歌曾发布了首个离线VLA模型,让机器人不用联网,即可精准操控完成 ...
从坐标混乱到时空对齐!诺亚和复旦联合提出4D-VLA,提升机器人预训练效率和稳健性
具身智能之心· 2025-07-06 11:54
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiahui Zhang等 以 OpenVLA 为代表的主流方法,仅使用 单帧 RGB 图像 + 文本指令 作为条件来拟合动作分布 。这 种极简输入导致目标分布呈现两类混乱: 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 Teaser 在 VLA pretrain 中,单帧 RGB + 文本的传统输入往往缺失关键时空线索,导致坐标系混乱与状态模糊——即同 一观测下可能对应多种动作分布, 显著拉低预训练效率 。为破解这一瓶颈,我们提出 4D-VLA:通过将3D 空间 + 历史帧融入预训练输入,从而抑制混乱分布,提升模型在复杂场景中的performance。 Insight 如何从多源机器人数据中高效提取可迁移的运动知识 ,仍是制约通用操作策略的关键瓶颈。当前公开的 DROID、LIBERO 等大规模数据集为数据驱动控制提供了可能,但 输入信息的不完整与不一致 严重削弱了预训 练的效果。 ...
北航×新国立×上交发布RoboCerebra:长时序机器人操作推理的全新评测基准
具身智能之心· 2025-06-28 07:48
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 SonghaoHan等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 Ideal Dynamic Memory Execution Memory Exploration Mix 1 问题背景与动机 近年来,视觉-语言模型(VLM)凭借对图像与文本的强大对齐能力,为机器人带来了"看图执行指令"的全 新范式。研究者只需给出一句自然语言命令,机械臂便能在仿真或真实桌面环境中完成抓取、移动、放置 等操作。这类系统通常以 VLA 等 "小脑" 模型的形式存在:直接把多模态观测映射到低层控制信号,强调 即时反应与传感-运动耦合。然而,随着任务场景从单步抓取扩展到家庭级复合操作,仅靠小脑反应已难以 胜任;机器人还需要 "大脑" VLM 进行长期规划、记忆管理与自我反思,并与小脑 Controller 高效协同。 现有公开基准的平均任务长度不足 500 步,也很少显式考察大小脑协作(Planner ...