OpenVLA - filings, earnings calls, financial reports, news

OpenVLA

Search documents

具身智能之心· 2025-07-09 14:38

作者丨新智元编辑丨新智元点击下方卡片，关注" 具身智能之心 "公众号 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。【导读】 2025年，全球具身智能赛道爆火，VLA模型成为了绝对的C位。从美国RT-2的开创性突破，到中国最新FiS-VLA「快慢双系统」，VLA正以光速硬核进化。 2025年，具身智能可真是太火了。而提到具身智能，不得不提——视觉语言动作模型（Vision-Language-Action，VLA）。作为具身智能的核心驱动力，VLA正席卷全球，成为研究人员们的「新宠」。论文链接: https://arxiv.org/pdf/2506.01953 从产业界到学术界，全球的主流公司与研究机构，都在加速向这一方向靠拢，达成了罕见的共识。在硅谷，诸如谷歌DeepMind、Figure AI、Skild AI、Physical Intelligence等行业领军者，早已开始发力押注VLA的未来。几周前，谷歌曾发布了首个离线VLA模型，让机器人不用联网，即可精准操控完成 ...

从坐标混乱到时空对齐！诺亚和复旦联合提出4D-VLA，提升机器人预训练效率和稳健性

具身智能之心· 2025-07-06 11:54

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Jiahui Zhang等以 OpenVLA 为代表的主流方法，仅使用单帧 RGB 图像 + 文本指令作为条件来拟合动作分布。这种极简输入导致目标分布呈现两类混乱：编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。 Teaser 在 VLA pretrain 中，单帧 RGB + 文本的传统输入往往缺失关键时空线索，导致坐标系混乱与状态模糊——即同一观测下可能对应多种动作分布，显著拉低预训练效率。为破解这一瓶颈，我们提出 4D-VLA：通过将3D 空间 + 历史帧融入预训练输入，从而抑制混乱分布，提升模型在复杂场景中的performance。 Insight 如何从多源机器人数据中高效提取可迁移的运动知识，仍是制约通用操作策略的关键瓶颈。当前公开的 DROID、LIBERO 等大规模数据集为数据驱动控制提供了可能，但输入信息的不完整与不一致严重削弱了预训练的效果。 ...

北航×新国立×上交发布RoboCerebra：长时序机器人操作推理的全新评测基准

具身智能之心· 2025-06-28 07:48

点击下方卡片，关注" 具身智能之心 "公众号作者丨 SonghaoHan等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。 Ideal Dynamic Memory Execution Memory Exploration Mix 1 问题背景与动机近年来，视觉-语言模型（VLM）凭借对图像与文本的强大对齐能力，为机器人带来了"看图执行指令"的全新范式。研究者只需给出一句自然语言命令，机械臂便能在仿真或真实桌面环境中完成抓取、移动、放置等操作。这类系统通常以 VLA 等 "小脑" 模型的形式存在：直接把多模态观测映射到低层控制信号，强调即时反应与传感-运动耦合。然而，随着任务场景从单步抓取扩展到家庭级复合操作，仅靠小脑反应已难以胜任；机器人还需要 "大脑" VLM 进行长期规划、记忆管理与自我反思，并与小脑 Controller 高效协同。现有公开基准的平均任务长度不足 500 步，也很少显式考察大小脑协作（Planner ...

Hierarchical Planning & Execution (HPE)

Hierarchical Planning & Execution (HPE)

OpenVLA