Workflow
π₀
icon
Search documents
VLA爆发!从美国RT-2到中国FiS-VLA,机器人的终极进化
具身智能之心· 2025-07-09 14:38
作者丨 新智元 编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 【导读】 2025年,全球具身智能赛道爆火,VLA模型成为了绝对的C位。从美国RT-2的开创性突 破,到中国最新FiS-VLA「快慢双系统」,VLA正以光速硬核进化。 2025年,具身智能可真是太火了。 而提到具身智能,不得不提——视觉语言动作模型(Vision-Language-Action,VLA)。 作为具身智能的核心驱动力,VLA正席卷全球,成为研究人员们的「新宠」。 论文链接: https://arxiv.org/pdf/2506.01953 从产业界到学术界,全球的主流公司与研究机构,都在加速向这一方向靠拢,达成了罕见的共识。 在硅谷,诸如谷歌DeepMind、Figure AI、Skild AI、Physical Intelligence等行业领军者,早已 开始发力押注VLA的未来。 几周前,谷歌曾发布了首个离线VLA模型,让机器人不用联网,即可精准操控完成 ...
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能/场景/方法论全解析~
自动驾驶之心· 2025-06-22 01:35
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨具身智能之心 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近很多同学询问π0、π0.5、A0都是啥?用在什么地方?能实现哪些功能?方法论有啥不同?前面 刚开始听到这些,也一头雾水,今天为大家梳理下。 π₀模型结构 原文:π0: A Vision-Language-Action Flow Model for General Robot Control π₀的核心架构基于 预训练视觉语言模型(VLM) 和 Flow Matching 技术,具体包含以下关键组件: VLM backbone 动作专家(Action Expert) 跨具身训练(Cross-Embodiment Training) 整合 7 种机器人、68 项任务、超 10,000 小时数据(含开源 OXE 数据集),通过权重调整处理不 同机器人的动作空间差异(如零填充低维动作向量)。 训练流程 基于 PaliGemma V ...
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能、场景、方法论全解析~
具身智能之心· 2025-06-21 12:06
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨具身智能之心 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近很多同学询问π0、π0.5、A0都是啥?用在什么地方?能实现哪些功能?方法论有啥不同?前面 刚开始听到这些,也一头雾水,今天为大家梳理下。 π₀模型结构 原文:π0: A Vision-Language-Action Flow Model for General Robot Control π₀的核心架构基于 预训练视觉语言模型(VLM) 和 Flow Matching 技术,具体包含以下关键组件: VLM backbone 动作专家(Action Expert) 跨具身训练(Cross-Embodiment Training) 整合 7 种机器人、68 项任务、超 10,000 小时数据(含开源 OXE 数据集),通过权重调整处理不 同机器人的动作空间差异(如零填充低维动作向量)。 训练流程 基于 PaliGemma V ...