Workflow
VLA
icon
Search documents
VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!
机器之心· 2025-07-13 04:58
本文第一作者为香港科技大学(广州)机器人系一年级博士生宋文轩,主要研究方向为VLA模型,共同第一作者是来自香港科技大学广州的研究助理陈家毅,项 目leader为浙江大学和西湖大学联合培养博士生丁鹏翔,他们也是具身智能领域开源项目OpenHelix以及LLaVA-VLA的研究团队。通讯作者为香港科技大学广州 的李昊昂教授, 他是今年的CVPR2025 Best Paper Candidate的获得者。 针对这一问题,部分研究提出采用 Jacobi 解码替代传统的自回归解码,以期提升推理效率。然而,由于 Jacobi 解码往往需要较多迭代次数,其加速效果在实践中 较为有限。 为此,我们提出了一种 一致性蒸馏训练(consistency distillation training)策略 ,使模型在每次迭代中能够同时预测多个正确的动作 token,从而实现解码加速。 同时,我们设计了混合标签监督机制(mixed-label supervision),用于缓解蒸馏过程中可能产生的误差积累问题。 尽管上述方法带来了可接受的加速效果,我们进一步观察到:Jacobi 解码中仍存在若干低效迭代步骤,成为限制整体效率的关键瓶颈。 ...
模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
机器之心· 2025-07-12 02:11
作者简介:由来自北 京大学、香港中文大学、北京智源研究院、智平方的老师同学联合研究,作者包括博 士生陈浩、刘家铭、顾晨阳、刘卓洋,通讯作者为北京大学仉尚航。北京大学 HMI 实验室长期致力于具身 智能和多模态学习领域的研究,欢迎关注。 快执行与慢思考: 在机器人操控领域,实现高频响应与复杂推理的统一,一直是一个重大技术挑战。近期,北京大学与香港 中文大学的研究团队联合发布了名为 Fast-in-Slow(FiS-VLA) 的全新双系统视觉 - 语言 - 动作模型。不同 之前的快慢系统 VLA 方法需要初始化 / 引入一个全新的快速执行模块,该方法通过将快速执行模块嵌入预 训练视觉 - 语言模型(VLM)中,实现快慢系统一体化的设计。同时,针对双系统设计了异构模态输入与 异步运行频率的策略,使得 FiS-VLA 既能实现快速动作生成,也具备慢思考能力。该方法在多个仿真与真 机平台上取得了优异表现。最令人瞩目的是,FiS-VLA-7B 可以实现高达 117.7Hz 的控制频率,大幅领先于 现有主流方案,展示了其广阔的实际应用潜力。 论文链接: https://arxiv.org/pdf/2506.01953 项目 ...
当我们谈大模型和vla岗位的时候,究竟有哪些内容?(附岗位)
自动驾驶之心· 2025-07-11 11:23
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 这样描述我想大家应该都能理解了,对应岗位的技术基本围绕大模型、diffusion还有数据生成等,是一个值 得投入的研发方向。自动驾驶之心也为大家推荐一些岗位,希望有一定经验的大佬投递。详细公司与级别 欢迎底部咨询我们!!!! 1)大模型研发工程师 base:深圳/上海; 待遇:30k-80k/月 岗位描述: 岗位要求: 最近有小朋友去投大模型和vla相关的岗位,来咨询峰哥。询问两者有什么差异,vla和端到端有什么区别? 这里也和大家做个分享。 首先,所有依赖大模型的方案,都可以叫大模型岗位,包括VLM、VLA这类。自驾领域经常采用qwen这类 大模型做微调,适配自驾场景的理解或者预测。关键技术:微调、轻量化、量化、部署等; 其次VLA的概念还有执行(action,vision+language+action=VLA),VLA可以是属于"端到端"这一概念! 从数据源到执行。业内目前有两种VLA方案,两阶段:基于大模型+Diffusion(比如理想,信息提取+轨迹 输出),单阶段完全基于大模型的方案比如OpenD ...
抱抱脸进军具身智能机器人:5小时成交破百万,299美元起售
量子位· 2025-07-11 04:00
henry 发自 凹非寺 量子位 | 公众号 QbitAI AI圈的"GitHub"居然开始卖机器人了! HuggingFace最新发布开源桌面机器人ReachyMini,5小时内卖出超13万欧元(约为人民币109万元)! 有线版本Reachy Mini Lite售价 299美元 ,无线版本Reachy Mini售价 499美元 。 换算下来,用一块Apple watch的钱你就可以把它带回家! 评论区网友纷纷表示,马上下单! Reachy mini有何不同? Reachy mini身高28cm,体重1.5kg,拥有可移动的头部和能够旋转的身体。 脑袋上还有两根摇摇晃晃的天线,小巧的体型完全可以让你把它放在你的电脑旁边。 Reachy Mini虽小,却"麻雀虽小,五脏俱全",在结构设计和AI接入上具备完整的系统框架。 它拥有六自由度的头部移动、全身旋转、动画天线、广角摄像头、多个麦克风和一个5瓦扬声器。 无线版配有RaspberryPi5作为计算核心,支持Wi-Fi和电池供电,麦克风数量也从Lite版的2个提升到4个,并额外加入了加速度计,使其具备 更完整的传感与交互能力。 相比之下,Lite版则需外接电脑运 ...
DreamVLA:全球首个“世界知识预测”VLA模型,操作成功率近八成
具身智能之心· 2025-07-10 13:16
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Wenyao Zhang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 研究背景与动机 近年来,视觉-语言-动作(VLA)模型在整合图像生成与动作预测以提升机器人操作的泛化性和推理能力 方面展现出潜力。但现有方法受限于基于图像的预测,存在信息冗余,且缺乏动态、空间和语义等关键世 界知识,难以形成闭环的感知-预测-动作循环。 动态区域预测 :利用光流预测模型识别场景中动态区域(如运动物体、机器人末端执行器),让模型 专注于任务关键的运动区域,避免冗余帧重建。通过CoTracker提取动态区域,训练模型仅重建这些区 域,优化目标为最大化对数似然的证据下界,损失函数为: $${\mathcal{L}}_{d y n}={\frac{1}{|{\mathcal{D}}|}}\sum_{x_{i}\in{\mathcal{D}}}\mathbb{E}_{z\sim Q_{\phi}(z|x_ ...
端到端VLA这薪资,让我心动了。。。
自动驾驶之心· 2025-07-10 12:40
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 端到端自动驾驶 - 下一代智能驾驶量产核心算法 端到端自动驾驶(End-to-End Autonomous Driving)作为目前智驾量产的核心算法,可以分为一段式端到端、二段式端到端两个大的技术方向。自UniAD获得 CVPR Best Paper以来,正式拉开了国内新一轮的智驾军备竞赛。 2024年理想汽车更是宣布E2E+VLM的双系统架构量产! 端到端自动驾驶通过传感器数据输入 (视觉/Lidar等)直接输出自车规划或控制信息,是目前智能驾驶最具代表性的方向。 目前VLM/VLA也是招聘的刚需,3-5年就能冲击百万年薪! 而随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。UniAD是端到端的最终解吗?显然不是!一系列算法如雨后春笋般冒出: 技术栈多?入门困难? 去年我们推出了《首个面向工业级的端到端算法与实战教程》,今年很多小伙伴反馈技术发展太快了,先前的技术方案已经不适合当下的大环境。端到端目前发 展出多个领域技术的方向,需要掌握多模态大模型、BEV感知、强化学习、视觉Trans ...
VLA统一架构新突破:自回归世界模型引领具身智能
机器之心· 2025-07-10 04:26
然而,现有方法多以语言模态为中心,往往忽视了视觉信息蕴含的丰富时序动态与因果结构。 本文来自:王宇琪,中国科学院自动化所博士,研究方向为世界模型,自动驾驶感知与决策等,在 CVPR、NeurIPS、ICCV、 ECCV、ICLR 等顶级会议上发表过多篇论文。 王鑫龙团队,北京智源研究院,研究方向为原生多模态大模型,Emu 系列工作核心负责人。 张兆翔团队,中国科学院自动化研究所,研究方向涵盖世界模型、视觉生成与重建、自动驾驶、具身智能等。 从 Sora 到 Genie2,从语言驱动的视频生成到世界的交互模拟,世界模型正加速成为连接感知、理解与决策的关键基座。随着视觉 - 语 言 - 动作(VLA)模型在具身智能领域的快速发展,多模态之间的边界正被重塑。 论文标题: Unified Vision-Language-Action Model 网站链接: https://robertwyq.github.io/univla.github.io/ 论文链接: https://arxiv.org/abs/2506.19850 代码链接: https://github.com/baaivision/UniVLA 为此,北 ...
推理与操控能力双提升!具身机器人双系统VLA模型新突破
量子位· 2025-07-10 03:19
Core Viewpoint - The article discusses the innovative Fast-in-Slow (FiS-VLA) model, which integrates fast and slow systems in robotic control, enhancing both execution speed and reasoning capabilities [1][7][29]. Group 1: Model Innovation - FiS-VLA represents the first unified dual-system VLA model that allows for collaborative slow reasoning and fast execution within a single pre-trained model, overcoming the limitations of traditional separate systems [2][8]. - The model achieves a success rate of 68% and 74% on real-world tasks with AgileX and AlphaBot platforms, respectively, surpassing the Pi0 model by over 10 percentage points [2][10]. Group 2: System Design - The model employs a dual-system architecture inspired by Daniel Kahneman's fast-slow brain theory, where System 2 handles high-level reasoning and System 1 executes actions in real-time [6][12]. - FiS-VLA utilizes heterogeneous input and asynchronous frequency strategies, allowing for rapid responses while maintaining precise control [7][13]. Group 3: Training Methodology - The training strategy involves a dual-aware co-training approach, where System 1 learns action generation and System 2 retains contextual reasoning capabilities, preventing catastrophic forgetting [20][22]. - The model is pre-trained on over 860,000 robot task trajectories, utilizing a 7 billion parameter LLaMA2 language model and visual encoders for semantic and spatial representation [22][23]. Group 4: Performance Metrics - In RLBench simulation tasks, FiS-VLA achieved a 69% average success rate, outperforming competitors like CogACT (61%) and Pi0 (55%) [23]. - The model's control frequency reached 21.9 Hz, more than double that of CogACT and significantly faster than Pi0 [23][24]. Group 5: Generalization Capability - FiS-VLA demonstrates robust performance in generalization tasks, maintaining over 50% success rates under varying conditions, unlike other models that experience significant performance drops [4][27]. - The integration of fast and slow systems enhances the model's ability to understand semantics and react quickly, contributing to its strong generalization and robustness [28][29].
VLA爆发!从美国RT-2到中国FiS-VLA,机器人的终极进化
具身智能之心· 2025-07-09 14:38
作者丨 新智元 编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 【导读】 2025年,全球具身智能赛道爆火,VLA模型成为了绝对的C位。从美国RT-2的开创性突 破,到中国最新FiS-VLA「快慢双系统」,VLA正以光速硬核进化。 2025年,具身智能可真是太火了。 而提到具身智能,不得不提——视觉语言动作模型(Vision-Language-Action,VLA)。 作为具身智能的核心驱动力,VLA正席卷全球,成为研究人员们的「新宠」。 论文链接: https://arxiv.org/pdf/2506.01953 从产业界到学术界,全球的主流公司与研究机构,都在加速向这一方向靠拢,达成了罕见的共识。 在硅谷,诸如谷歌DeepMind、Figure AI、Skild AI、Physical Intelligence等行业领军者,早已 开始发力押注VLA的未来。 几周前,谷歌曾发布了首个离线VLA模型,让机器人不用联网,即可精准操控完成 ...
师兄自己发了篇自动驾大模型,申博去TOP2了。。。
自动驾驶之心· 2025-07-09 12:56
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案。那么下一代大 模型需要关注的点有哪些呢? 按照早期自动驾驶技术发展的规律,当数据和方案基本验证有效后,开始重点关注轻量化与硬件适配、知识蒸馏与 量化加速、高效微调大模型等方向! 除此之外目前大火的CoT方案也是后期完成空间感知的重点,VLA+强化学习等高级推理范式也被行业重点关注。 这些问题是学术界和工业界亟需要解决的,相关的论文研究受到审稿人的青睐,国内外越来越多的团队正在从事相 关方向研究。我们了解到不少同学靠着自己的努力,发了篇和自动驾驶相关的大模型工作,申博去了TOP2!前面 收到很多同学的求助,希望能够辅助开展大模型相关的论文指导研究,解决无人带发论文,缺乏指导的痛点。 自动驾驶之心联合业内知名大模型方向学者,开展了1v6的大模型论文指导小班课,解决无人带、易踩坑、不知如 何写稿、投稿的难题。 ⼀、课程介绍⭐ 随着大语言模型(LLM)和多模态模型的快速发展,如何提升模型效率、扩展知识能力以及增强推理性能已成为 ...