视觉 - 语言 - 动作(VLA)模型

Search documents
VLA统一架构新突破:自回归世界模型引领具身智能
机器之心· 2025-07-10 04:26
然而,现有方法多以语言模态为中心,往往忽视了视觉信息蕴含的丰富时序动态与因果结构。 本文来自:王宇琪,中国科学院自动化所博士,研究方向为世界模型,自动驾驶感知与决策等,在 CVPR、NeurIPS、ICCV、 ECCV、ICLR 等顶级会议上发表过多篇论文。 王鑫龙团队,北京智源研究院,研究方向为原生多模态大模型,Emu 系列工作核心负责人。 张兆翔团队,中国科学院自动化研究所,研究方向涵盖世界模型、视觉生成与重建、自动驾驶、具身智能等。 从 Sora 到 Genie2,从语言驱动的视频生成到世界的交互模拟,世界模型正加速成为连接感知、理解与决策的关键基座。随着视觉 - 语 言 - 动作(VLA)模型在具身智能领域的快速发展,多模态之间的边界正被重塑。 论文标题: Unified Vision-Language-Action Model 网站链接: https://robertwyq.github.io/univla.github.io/ 论文链接: https://arxiv.org/abs/2506.19850 代码链接: https://github.com/baaivision/UniVLA 为此,北 ...
3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%
具身智能之心· 2025-06-26 14:19
更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 【导读】 中科院自动化所提出BridgeVLA模型,通过将3D输入投影为2D图像并利用2D热图进行 动作预测,实现了高效且泛化的3D机器人操作学习。实验表明,BridgeVLA在仿真和真实场景中 均展现出卓越的性能和数据效率,仅需3条轨迹即可在基础任务中达到96.8%的成功率。 近年来,视觉-语言-动作(VLA)模型在机器人操作任务中大放异彩,成为推动通用机器人操作的 重要引擎。 但现有的VLA模型,大多只以2D信息作为输入,且需要大量的机器人数据进行微调; 反观以PerAct,RVT-2为代表的3D操作策略,通常仅需要10条轨迹就能够取得不错的效果,因 此,一个很自然的想法是,是否能将现有的2D VLA升级为3D VLA,使其同时兼具2D VLA的效果 以及3D操作策略的效率? 作者丨 新智元 编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 2D VLA的泛化,3D Policy的效率,这下全部打包带走! 缩小VLM和VLA之间的迁 ...
再获超5亿融资,“伯克利”AI大牛领衔,这家具身智能机器人创企冲刺独角兽!
Robot猎场备忘录· 2025-04-27 10:09
温馨提示 : 点击下方图片,查看运营团队2025年最新原创报告(共210页) 具身智能赛道共有19家企业入榜,其中成立仅1年、刚完成 5.28 亿元 Pre-A 轮融资的"清华系"具身智能机器人公 司[ 千寻智能 ]成为榜单中最年轻创企;除此之外,公司还成功入选"2025杭州准独角兽企业"、"杭州AI18罗汉"三 项重磅榜单。 —— 公司依托"顶尖团队+全栈能力"的稀缺性组合,在资本市场备受青睐,成立1年时间,公司已完成4轮融资: 2024年3月,完成种子轮融资, 由顺为资本("小米系")领投,绿洲资本跟投; 2024年8月, 完成天使轮融资,由弘晖基金领投, 达晨创投 、千乘资本跟投,顺为资本和绿洲资本老股东 加码; 种子轮+天使轮累计融资 近2亿元; 2024年11月,完成 柏睿资本 独投 天使+轮融资; 2025年3月31日, 完成 5.28 亿元 Pre-A 轮融资, 本轮融资由阿美风险投资旗下Prosperity7 Ventures(P7)领投,招商局创投、 广发信德 、靖亚资本、东方富海、 东方嘉富 、 华控基金、达晨财智、 柏睿资本、弘晖基金、千乘资本参投;本轮融资后,公司将持续加速具身大模型的 ...
在与 OpenAI 分道扬镳后,Figure AI 推出了其第二代机器人,将业务重点从工厂拓展至家庭领域。
Counterpoint Research· 2025-04-03 02:59
Figure AI 是一家崭露头角的机器人领域独角兽企业,它正试图改写人形机器人领域的规则。在与 OpenAI 分道扬镳之后,该公司做出了大胆的战略调整,与此同时还在推进 C 轮融资。2 月 20 日,该公 司推出了第二代机器人 Figure 02,随后在 3 月发布了一系列演示视频。 关键技术突破 Helix 的四项关键技术突破 在与 OpenAI 分道扬镳,并在推进 C 轮融资之际,Figure AI 公司推出了其第二代机器人 ——Figure 02。 Figure AI 此次发布的核心是 Helix,这是一款开创性的视觉 - 语言 - 动作(VLA)模型,为 Figure 02 机器人提供动力支持,并且是专为通用型人形机器人的控制而设计的。 尽管在通用型机器人的研发方面可能存在炒作成分,但我们发现有四大因素足以支撑这一重大进 展,分别是:突破性的技术知识产权、市场拓展、适应性泛化能力以及商业可扩展性。 我们从演示视频中截取了关键画面,重点展示了两台机器人(均由单个 Helix 实例驱动)实时协作整理 食品杂货的场景。其中的关键之处是什么呢?它们此前从未见过这些物品。这不是预先设定好的自动化 操作,而是实 ...
在与 OpenAI 分道扬镳后,Figure AI 推出了其第二代机器人,将业务重点从工厂拓展至家庭领域。
Counterpoint Research· 2025-04-03 02:59
Figure AI 是一家崭露头角的机器人领域独角兽企业,它正试图改写人形机器人领域的规则。在与 OpenAI 分道扬镳之后,该公司做出了大胆的战略调整,与此同时还在推进 C 轮融资。2 月 20 日,该公 司推出了第二代机器人 Figure 02,随后在 3 月发布了一系列演示视频。 关键技术突破 Figure AI 此次发布内容的核心是 Helix(螺旋模型),这是一款具有开创性的视觉 - 语言 - 动作(VLA) 模型。它为 Figure 02 机器人提供动力支持,并且是专为通用型人形机器人的控制而设计的。 Helix 的四项关键技术突破 数据来源:Counterpoint, Figure AI 在与 OpenAI 分道扬镳,并在推进 C 轮融资之际,Figure AI 公司推出了其第二代机器人 ——Figure 02。 Figure AI 此次发布的核心是 Helix,这是一款开创性的视觉 - 语言 - 动作(VLA)模型,为 Figure 02 机器人提供动力支持,并且是专为通用型人形机器人的控制而设计的。 尽管在通用型机器人的研发方面可能存在炒作成分,但我们发现有四大因素足以支撑这一重大进 展,分 ...