Workflow
VLA模型
icon
Search documents
抱抱脸进军具身智能机器人:5小时成交破百万,299美元起售
量子位· 2025-07-11 04:00
henry 发自 凹非寺 量子位 | 公众号 QbitAI AI圈的"GitHub"居然开始卖机器人了! HuggingFace最新发布开源桌面机器人ReachyMini,5小时内卖出超13万欧元(约为人民币109万元)! 有线版本Reachy Mini Lite售价 299美元 ,无线版本Reachy Mini售价 499美元 。 换算下来,用一块Apple watch的钱你就可以把它带回家! 评论区网友纷纷表示,马上下单! Reachy mini有何不同? Reachy mini身高28cm,体重1.5kg,拥有可移动的头部和能够旋转的身体。 脑袋上还有两根摇摇晃晃的天线,小巧的体型完全可以让你把它放在你的电脑旁边。 Reachy Mini虽小,却"麻雀虽小,五脏俱全",在结构设计和AI接入上具备完整的系统框架。 它拥有六自由度的头部移动、全身旋转、动画天线、广角摄像头、多个麦克风和一个5瓦扬声器。 无线版配有RaspberryPi5作为计算核心,支持Wi-Fi和电池供电,麦克风数量也从Lite版的2个提升到4个,并额外加入了加速度计,使其具备 更完整的传感与交互能力。 相比之下,Lite版则需外接电脑运 ...
推理与操控能力双提升!具身机器人双系统VLA模型新突破
量子位· 2025-07-10 03:19
Core Viewpoint - The article discusses the innovative Fast-in-Slow (FiS-VLA) model, which integrates fast and slow systems in robotic control, enhancing both execution speed and reasoning capabilities [1][7][29]. Group 1: Model Innovation - FiS-VLA represents the first unified dual-system VLA model that allows for collaborative slow reasoning and fast execution within a single pre-trained model, overcoming the limitations of traditional separate systems [2][8]. - The model achieves a success rate of 68% and 74% on real-world tasks with AgileX and AlphaBot platforms, respectively, surpassing the Pi0 model by over 10 percentage points [2][10]. Group 2: System Design - The model employs a dual-system architecture inspired by Daniel Kahneman's fast-slow brain theory, where System 2 handles high-level reasoning and System 1 executes actions in real-time [6][12]. - FiS-VLA utilizes heterogeneous input and asynchronous frequency strategies, allowing for rapid responses while maintaining precise control [7][13]. Group 3: Training Methodology - The training strategy involves a dual-aware co-training approach, where System 1 learns action generation and System 2 retains contextual reasoning capabilities, preventing catastrophic forgetting [20][22]. - The model is pre-trained on over 860,000 robot task trajectories, utilizing a 7 billion parameter LLaMA2 language model and visual encoders for semantic and spatial representation [22][23]. Group 4: Performance Metrics - In RLBench simulation tasks, FiS-VLA achieved a 69% average success rate, outperforming competitors like CogACT (61%) and Pi0 (55%) [23]. - The model's control frequency reached 21.9 Hz, more than double that of CogACT and significantly faster than Pi0 [23][24]. Group 5: Generalization Capability - FiS-VLA demonstrates robust performance in generalization tasks, maintaining over 50% success rates under varying conditions, unlike other models that experience significant performance drops [4][27]. - The integration of fast and slow systems enhances the model's ability to understand semantics and react quickly, contributing to its strong generalization and robustness [28][29].
具身智能赛道加速发展:星动纪元完成近5亿元A轮融资,行业融资热潮持续
Jing Ji Guan Cha Wang· 2025-07-07 08:53
作者 胡群 7月7日,具身智能企业"星动纪元"宣布完成近5亿元A轮融资,由鼎晖VGC和海尔资本联合领投,厚雪资本、华映资本等跟投,老股东清流资本、清控基金 继续加码。本轮融资将用于人形机器人软硬技术研发与量产落地,推动"模型-本体-场景数据"闭环飞轮高速运转。星动纪元成立于2023年8月,是清华大学 唯一持股的具身智能企业,目前已与全球市值前十名科技巨头中的9家达成合作,今年累计交付超200台产品,海外订单占比超50%。 2025年以来,具身智能领域融资热潮持续。6月23日,银河通用获宁德时代领投的11亿元融资;7月3日,宇树科技C+轮融资后估值达130亿元;非夕科技也 完成C轮亿级美元融资。行业数据显示,具身智能赛道正进入加速发展期,头部企业估值快速攀升,资本密集涌入。银行证券研报指出,2025年全球具身智 能产业链在头部企业带动下迎来高速增长,投融资活动高度活跃,商业化落地成为行业焦点。 资本狂热与落地挑战并存 2025年,具身智能赛道融资热度持续攀升。除星动纪元外,宇树科技、银河通用、非夕科技等企业均获大额融资,估值快速上涨。初创公司如它石智航、原 力灵机等,甚至在成立数月内便完成亿元级融资。资本层面, ...
星动纪元完成近5亿元A轮融资,华兴资本持续担任独家财务顾问
Ge Long Hui· 2025-07-07 05:17
物理世界以人为中心构建,因此,星动纪元从第一性原理出发,力求让机器人在物理世界中有的学、学 得快、做得多: 在模型侧,让机器人像人一样"看懂世界,自主行动"。提出融合理解与生成的VLA模型ERA-42,将视 觉、理解、预测、行动等功能统一到一个端到端的模型中。 在本体侧,打造"像人类一样有力&灵活的身体"。自研人形机器人在性能上逼近人类身体,并作为与物 理世界交互的"通用接口",将可用数据从真机数据扩展至互联网视频数据,解决了数据稀缺的瓶颈。 模型和本体的研发突破,使得星动纪元实现了一个模型控制全身灵巧操作,真正构建了物理世界AI的 闭环飞轮。 在商业侧,技术突破已转化为高质量商业成果:全球市值TOP10的科技巨头中,9家为星动纪元客户。 目前,星动纪元已实现了产品批量交付,今年已累计交付超200台产品,另有上百个订单在量产交付 中;订单中50%以上来自海外客户,快速领跑具身智能技术出海。此外,公司在工业物流、连锁零售等 高价值场景快速推进落地,汇集了海尔智家、联想、北自科技等各行业头部客户。 推动"模型-本体-场景数据"闭环飞轮高速运转 2025年7月7日,具身智能领域领军企业星动纪元宣布完成近5亿元A轮融 ...
cVLA:面向高效相机空间VLA模型的关键位姿预测方法
具身智能之心· 2025-07-06 11:54
本文只做学术分享,如有侵权,联系删文 写在前面 视觉-语言-动作(VLA)模型为复杂机器人操作任务提供了强有力的框架,但训练成本往往很高。研究提出了一种新的VLA方法,利用视觉语言模型(VLMs)在 2D图像上的出色表现,直接推断机器人末端执行器在图像帧坐标中的位姿。与以往输出低级控制指令的VLA模型不同,该模型预测轨迹路标,不仅训练更高效, 还与机器人实体无关。尽管设计轻量,其下一个token预测架构仍能有效学习有意义且可执行的机器人轨迹。此外,还探索了深度图像的潜力、解码策略等推理技 术,以及基于演示的动作生成。模型在模拟数据集上训练,展现出良好的模拟到现实迁移能力,并通过模拟和真实数据结合的评估,证明了在真实机器人系统上 的有效性。 >> 点击进入→ 具身智能之心 技术交流群 点击下方 卡片 ,关注" 具身智能 之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 作者丨 Max Argus等 编辑丨具身智能之心 1. 引言 视觉-语言-动作(VLA)模型通过融合视觉、语言和交互数据,实现细粒度感知与动作生成,能解决多种任务。但V ...
某新势力世界模型负责人休假。。。
自动驾驶之心· 2025-07-04 10:27
以下文章来源于红色星际 ,作者红色星际科技 红色星际 . 让更多人,更深入地了解自动驾驶行业! 今年这家新势力将智驾投入的重心从端到端转移到了VLA,试图在端到端上取得拔尖成绩之后继续乘胜突击。这位负责人作为"舵手"可谓核心关键人物,而就在这样的节 骨眼上,如此核心的人物休假,对于这家新势力在前沿技术的研发上会产生什么样的影响呢? 本文只做学术分享,如有侵权,联系删文 今年这家新势力的智驾核心团队并不稳定。智驾最核心的三个部门:端到端、世界模型、量产,端到端负责人已经离职,世界模型负责人带病休假,就只有量产的负责人 还在。 智驾一号位似乎对此并不担忧,还是信心满满,认为等新模型量产上车会在业界取得断代式领先。不过,端到端和世界模型是最重要的两个技术,核心人物不稳定,并不 是一个好现象。 这几年新势力在智驾自研上都出现一个严重的现象,人才流动和动荡成为常态。而且,越是某一阶段做的拔尖的新势力,人才越频繁的动荡。 作者 | 红色星际科技 来源 | 红色星际 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 据悉 ...
清华&小米团队发布VLA模型综述
理想TOP2· 2025-07-04 02:54
以下文章来源于具身进化 ,作者一起学习 具身进化 . 智启形随,进化无界。 一、 自动驾驶的技术范式演进 自动驾驶技术正从简单的感知-控制,向更高级的认知智能演进,最新的自动驾驶模型可以分为三大范式: ●端到端自动驾驶 (End-to-End AD): 将传感器输入直接映射到驾驶动作。此模式高效但缺乏可解释性,难以处理需要高级推理的"长尾"场景。 ●用于自动驾驶的视觉语言模型 (VLMs for AD): 引入视觉语言模型来理解和解释复杂的交通场景,显著提升了系统的可解释性。但其输出的 语言与车辆的实际控制脱节,存在"行动鸿沟"。 ●用于自动驾驶的视觉-语言-行动模型 (VLA for AD): 当前最新的范式。它在一个统一模型中整合视觉感知、语言理解和动作执行,实现了感 知、推理和行动的闭环。车辆遵循自然语言指令直接输出动作或者轨迹。 二、 VLA自动驾驶模型的核心架构 一个典型的VLA模型由输入、处理、输出三部分构成,旨在无缝整合环境感知、高级指令理解与最终的车辆控制。 1.多模态输入 (Inputs): ○视觉与传感器数据:视觉是系统的核心输入,技术已从早期的单前视摄像头发展到如今的多摄像头环视系统。为 ...
WorldVLA:世界模型实现视觉-动作双向增强,抓取精度显著提升
具身智能之心· 2025-06-30 12:17
领域介绍 VLA模型的发展已成为机器人动作模型研究的重要焦点。这些模型通过在大规模预训练多模态大语言模型 (MLLM)的基础上增加动作头或额外的动作专家模块来生成动作。MLLM 在感知和决策方面提供了强大 能力,使 VLA 模型能够在广泛的机器人任务中表现出更强的泛化能力。然而,一个显著的限制仍然存在: 这些模型往往缺乏对动作的全面理解,因为动作仅被视为输出,而未被集成作为输入进行深入分析。相比 之下,世界模型展示了基于当前观察和动作预测未来视觉状态的能力,从而实现对视觉信息和行为动态的 双重理解。尽管有这一优势,世界模型受到无法直接生成动作输出的限制,导致功能缺口,限制了其在需 要显式动作规划的场景中的应用。 作者丨 JunCen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 WorldVLA功能与定义 WorldVLA是一种将动作与图像理解和生成相结合的自回归动作世界模型。WorldVLA 在单一框架中集成了 视觉 - 语言 - 动作( ...
中科院自动化所最新综述!VLA模型后训练与类人运动学习的共性
具身智能之心· 2025-06-29 09:51
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Tian-Yu Xiang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 想象学习走路的情景:尽管祖先的经验让一些与生俱来的能力(例如:平衡感、反应)被编码到我们的 DNA中,但要真正学会走路,仍需要在真实环境中不断练习、摔倒、再爬起。经过一段时间的训练,我们 的大脑和身体会逐渐协调一致,形成与环境交互的策略。这种 由通用能力到特定技能 的转变过程在人类中 十分常见,而如今, 智能机器人 也面临着类似的挑战:即便拥有强大的预训练模型作为"大脑",在执行具 体复杂任务前,仍需要经过类似于人类学习的"后训练"阶段,才能在新环境、新任务下达到理想表现。 1. 概述 这项工作从 人类运动技能学习 的角度系统性地对总结 VLA模型(视觉-语言-动作模型) 的 后训练(post- training)策略 。其主要贡献如下: (1) 从人类运动学习视角讨论了VLA模型后训练方法 :将人类运动技能 ...
银河通用创始人王鹤勾勒人形机器人产业新图景,合成数据破局具身智能落地
Xin Lang Zheng Quan· 2025-06-28 09:03
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 文/新浪财经上海站 陈秀颖 6月28日于上海智能工业中心开幕的"具赋新能 智驱未来"青年科学家成果转化暨具身智能高质量发展研 修会上,百余位全球青年科学家与逾130位上市公司企业家云集。 北京大学助理教授、银河通用机器人创始人及CTO、智源学者王鹤的演讲——合成数据赋能的具身大 模型开启工商业场景规模化落地。 2023年5月,银河通用成立之初,便迅速拿下种子轮融资。此后,头部机构持续加入,旗下几乎汇聚了 各类型顶级投资机构,由此走到聚光灯下。 具身智能,作为让机器人具备理解物理世界并与之交互能力的尖端领域,近年来风头正劲。尤其在多模 态大模型加持下,"端到端"的技术路线被普遍视为通向"通用"的曙光。 王鹤在演讲伊始,便将具身智能与已取得长足进步的自动驾驶领域进行了量体裁衣的对比。他指出,自 动驾驶历经十年发展,其辅助驾驶功能如今能在国内城市普及,核心驱动力正是端到端模型。相比之 下,具身智能的任务范畴更广、所需数据量级更大、技术复杂度更高,但"端到端"之路依然值得坚持, 否则规则驱动的旧范式将在可扩展性上举步维艰。 然而,最大痛点旋即浮 ...