Workflow
视觉 - 语言 - 动作(VLA)模型
icon
Search documents
刚刚,智元提出SOP,让VLA模型在真实世界实现可扩展的在线进化
机器之心· 2026-01-06 09:38
对于电子产品,我们已然习惯了「出厂即巅峰」的设定:开箱的那一刻往往就是性能的顶点,随后的每一天都在折旧。 但对于通用机器人来说,这个设定必须被颠覆。 试想,如果一个在实验室里完成训练的 AI 机器人,一进家门面对光线稍暗的房间或堆满杂物的茶几就大脑宕机,那它就永远只能是一个昂贵的实验品。这正是当 前具身智能面临的尴尬真相:我们在互联网知识里训练出了博学的预训练模型,可一旦让它们走进充满未知的物理世界,这些「理论巨人」往往会因为环境变化 而束手无策:「懂」很多道理,却依然干不好家务。 通用机器人的出路,绝不应是被困在出厂设置里的「静态标品」,而应当是能在真实部署中、在每一次失败和纠正中持续变强的生命体。 为了实现这一跨越,智元具身研究中心提出了 SOP(Scalable Online Post-training)框架 。 在过去几年里,基于互联网海量数据预训练的 VLA(视觉 - 语言 - 动作)模型,虽然赋予了机器人一定的通用泛化能力,但始终面临一个难以逾越的鸿沟: 「懂」不代表「能」 。 预训练模型或许「懂」什么是叠衣服,但当它真正面对一件材质松软、光照复杂的真实衣物时,往往会因为 分布偏移 而束手无策。 ...
英伟达用千万Clip搞定了反事实推理VLA!安全指标提升了20%......
自动驾驶之心· 2026-01-05 03:33
Core Insights - The article discusses the development of the Counterfactual Vision-Language-Action (CF-VLA) model, which incorporates self-reflective reasoning to enhance the safety and accuracy of autonomous driving systems [3][56] - CF-VLA aims to address the limitations of existing Vision-Language-Action (VLA) models by enabling them to reflect on their planned actions before execution, thereby improving decision-making in complex driving scenarios [10][56] Group 1: Model Development - CF-VLA introduces adaptive reasoning and self-reflection capabilities, allowing the model to adjust its actions based on potential outcomes identified through counterfactual reasoning [3][10] - The model generates time-segmented meta-actions to summarize driving intentions and utilizes these to perform counterfactual reasoning, identifying unsafe behaviors and correcting them before final trajectory generation [3][10] - The "rollout-filter-label" data processing pipeline is designed to extract high-value scenarios from the model's rollout results, enhancing the training process for counterfactual reasoning [11][14] Group 2: Performance Metrics - Experiments on large-scale driving datasets show that CF-VLA improves trajectory accuracy by up to 17.6% and safety metrics by 20.5% compared to baseline models [14][56] - The model demonstrates adaptive reasoning capabilities, activating counterfactual reasoning primarily in complex scenarios, thus optimizing computational resources during testing [16][48] - The introduction of meta-actions significantly enhances the model's performance, reducing minimum average displacement error (MinADE) and minimum final displacement error (MinFDE) by approximately 9% compared to pure trajectory models [43][44] Group 3: Practical Applications - CF-VLA's self-reflective capabilities allow it to make context-specific corrections, improving safety and traffic efficiency in various driving scenarios, such as avoiding congestion and responding to pedestrians [57] - The model's ability to dynamically decide when to engage in reasoning helps maintain a balance between computational efficiency and decision-making quality [21][48] - The findings suggest that counterfactual self-reflection can effectively bridge reasoning and control in autonomous driving systems, providing a framework for future advancements in the field [56][57]
突破2D-3D鸿沟!北大提出VIPA-VLA,视频解锁机器人精准操控
具身智能之心· 2025-12-26 00:55
编辑丨 机智流 当我们用手机拍摄一段 "拿起杯子放进抽屉" 的视频时,大脑能瞬间从 2D 画面中捕捉到杯子的位置、距离、手的运动轨迹等 3D 空间信 息。但对于依赖视觉-语言-动作(VLA)模型的机器人来说,这却是一个巨大的挑战——它们只能从 2D 像素中解读语义,却难以建立与 3D 物理世界的有效关联,就像蒙上双眼在三维空间中摸索,常常出现"抓空""放偏"等操作失误的尴尬局面。 这一"2D 感知与 3D 动作脱节"的问题,长期制约着机器人技术的落地应用。现有 VLA 模型大多依赖 2D 视觉输入制定行动策略,却要在真 实的 3D 物理环境中执行任务,这种感知与行动的割裂,导致机器人的空间定位精度低、任务通用性差,难以适应复杂多变的现实场景。如 何让机器人像人类一样,从 2D 视觉信息中精准推断 3D 空间关系,成为机器人学习领域亟待突破的核心难题。 针对这一问题,来自 北京大学 、 中国人民大学 和 BeingBeyond(北京智在无界) 的研究团队提出了一种全新的空间感知VLA预训练范 式,通过人类演示视频的视觉-物理对齐,让模型在学习机器人策略前就掌握3D空间理解能力。他们构建了Hand3D数据集,设计 ...
从 2D 感知到 3D 预测:GeoPredict 重构VLA模型的几何推理能力
具身智能之心· 2025-12-25 01:41
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jingjing Qian等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人操纵领域,视觉 - 语言 - 动作(VLA)模型凭借大规模预训练数据的语义与视觉先验,实现了跨任务泛化,但长期受限于 2D-centric 的反应式决策范式, 难以应对需要精准 3D 空间推理、长时程物理一致性的复杂任务。 香港中文大学(深圳)、湖南大学、理想汽车等联合团队提出的 GeoPredict 框架 ,以 "预测性运动学 + 3D 高斯几何" 为双核心,通过 "轨迹级运动预测 - 3D 高斯 场景建模 - 训练时监督推理时轻量化" 的创新架构,首次将未来感知的几何先验注入连续动作 VLA 模型,彻底突破了传统方法的空间推理瓶颈。 论文题目:GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Preci ...
近300篇工作!伦敦国王学院x港理工全面解构VLA模型,一份清晰系统的导航图
具身智能之心· 2025-12-17 00:05
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Chao Xu等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 这篇综述对视觉 - 语言 - 动作(VLA)模型进行了全面剖析,是该领域极具价值的导航指南。核心结论是:VLA 模型正推动机器人技术变革,其发展遵循 "基础模 块→历史里程碑→核心挑战" 的逻辑,五大核心挑战(表征、执行、泛化、安全、数据与评估)是当前研究的关键突破口,相关结构与关键信息可通过文中图表直 观呈现。 核心定位与结构设计 文章以研究者的自然学习路径为框架,从基础到前沿层层递进,既适合新手入门,也为资深研究者提供方向。 基础模块:VLA 模型的核心构成 VLA 系统由感知、大脑、动作三大核心模块组成,近年呈现明显技术迭代趋势,各模块的关键技术选型与代表模型可参考相关数据集与里程碑表格。 论文标题 :An Anatomy of Vision-Language-Action Models: From Modules ...
新国大团队首创!当VLA具备4D感知能力后会怎么样?
具身智能之心· 2025-12-15 03:17
点击下方 卡片 ,关注" 具身智能 之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 点击按钮预约直播 视觉-语言-动作(VLA)模型在通用机器人任务中展现出应用潜力,但在需要细粒度表征的 时空一致机器人操作 任务中仍面临诸多挑战。现有方法通常会将三 维位置信息嵌入视觉表征,以此提升动作的空间精度,然而这类方法难以实现对动作执行过程的时序一致性控制。 VLA-4D 是 一款具备4D感知能力的通用VLA模型,专门用于实现时空一致的机器人操作。 该模型的设计核心包含两大关键模块:其一为 4D感知视觉表征 ,先 提取视觉特征,再将一维时间信息嵌入三维位置信息以生成4D嵌入特征,随后通过交叉注意力机制将其融合为统一的视觉表征;其二为 时空动作表征 ,VLA- 4D为传统的空间动作表征拓展了时序信息维度,从而支持时空层面的动作规划,并将多模态表征与大语言模型(LLM)进行对齐,以完成时空动作预测。 在这一统一框架下,经特殊设计的视觉表征与动作表征可协同作用,让机器人操作既具备空间流畅性,又能保证时序一致性。此外,本工作还为现有VLA数据集 补充了时序动作标注,用于模型的微调训练。 论文标题 : VLA- ...
理想自动驾驶负责人回应宇树王兴兴对VLA质疑:空谈架构不如看疗效
Feng Huang Wang· 2025-12-10 10:27
郎咸朋还分享了公司CEO李想的观点,李想认为,未来五到十年,具身机器人核心将有两种形态:汽车 类的具身机器人、人形类的具身机器人。理想的VLA不仅服务于现在的理想各类汽车产品形态,也将 服务于未来的汽车类具身机器人。 凤凰网科技讯12月10日,理想自动驾驶负责人郎咸朋发布长文,回应了宇树科技创始人王兴兴对VLA 的一些担忧。在今年8月的2025年世界机器人大会上,王兴兴表示当下火热的VLA模型(视觉-语言-动作) 是"相对比较傻瓜式的架构",并表示"保持比较怀疑的态度"。 郎咸朋表示,空谈架构不如看疗效。在自动驾驶领域,脱离了海量真实数据谈模型架构都是空中楼阁, 我们之所以坚持VLA,是因为我们拥有数百万辆车构建的数据闭环,这让我们能在当前算力下,把驾 驶水平做到接近人类。 郎咸朋认为,经过两个月多的"实践出真知"后,VLA就是自动驾驶最好的模型方案,具身智能最终拼的 是整体的系统能力。 ...
上交&ai lab团队联合提出MM-ACT:一个统一的VLA模型实现感知-规划-执行的高效协同
具身智能之心· 2025-12-02 09:30
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨 具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人操作领域,"通用性" 与 "高效性" 的平衡始终是核心挑战——现有方案要么缺乏动态建模能力,难以应对复杂环境交互;要么推理速度慢,无法满足实时 控制需求。 上海 AI 实验室、上海交通大学等团队联合提出的 MM-ACT ,以 "统一多模态表征 + 并行解码架构" 为核心,创新引入 "上下文共享多模态学习" 范式,实现了文 本、图像、动作的协同生成,既具备精准的语义理解与环境预测能力,又能高效输出执行动作,在模拟与真实场景中均展现出超越现有方案的综合性能。 为什么需要重构视觉 - 语言 - 动作(VLA)模型架构? 当前 VLA 模型陷入 "三重矛盾":语义理解与动态建模难以兼顾、多模态生成效率低下、训练目标存在错位,核心问题可归结为 "无法在统一框架内实现'感知 - 规 划 - 执行'的高效协同": | 方案类型 | 代表思路 | | 核 ...
估值超390亿元,头部具身智能大模型创企发布最强VLA模型!
Robot猎场备忘录· 2025-11-27 05:06
温馨提示 : 点击下方图片,查看6月原创报告,11月最新研报已上传星球内(共260页) 说明: 欢迎约稿、刊例合作、行业交流 , 行业交流记得先加入 "机器人头条"知识星球 ,后添加( 微信号:lietou100w )微 信; 若有侵权、改稿请联系编辑运营(微信:li_sir_2020); 正文: π0到π0.5再到π*0.6,机器人学会自我进化,最强 VLA模型,来了! 公司创始人Sergey Levine表示,通过对 π*0.6 模型进行微调,可以使其在多种任务上表现出色,除了处理衣物 之外的任务都可以 达到90%成功率 ,而且任务处理的效率也大大提升了。 —— π*0.6 模型的核心亮点: 注:π*0.6 的机制与性能解读 2025年11月18日,估值超390亿、 拥有全球具身智能领域"最强创始 团队的具身智能大模型初创公司 [Physical Intelligence] ( 简称 PI或 π ) 在其上一代大模型 π0.5基础上, 发布公司最新 视觉-语言-动作( VLA)大模型 π*0.6,凭借创新的RECAP训练方法,首次实现了机器人在真实复杂环境中"从错误中学习、从实践中进化"的核 心能力,将长 ...
华科&清华最新DeepThinkVLA:如何让模型 “会思考、能落地”?
具身智能之心· 2025-11-24 10:02
Core Insights - The article presents DeepThinkVLA, a new model that addresses the challenges in the visual-language-action (VLA) domain by integrating a mixed attention decoder and a two-stage training pipeline, achieving a task success rate of 97.0% on the LIBERO benchmark, setting a new performance standard for VLA models [2][14]. Group 1: Model Architecture - DeepThinkVLA resolves the "modal conflict" between reasoning and action by employing a mixed attention mechanism that allows for efficient processing of both modalities within a single decoder [4][10]. - The model features a dynamic switching mechanism between causal attention for reasoning generation and bidirectional attention for action generation, significantly reducing inference latency and enhancing performance [4][10]. Group 2: Training Methodology - The training process consists of a two-stage pipeline combining supervised fine-tuning (SFT) and reinforcement learning (RL), which enhances the model's reasoning capabilities while ensuring effective action execution [6][8]. - The SFT phase focuses on building foundational reasoning skills through a carefully designed data augmentation pipeline, resulting in a dataset of 273,465 annotated frames [10][12]. Group 3: Innovations and Mechanisms - Two key innovations are highlighted: the probabilistic decomposition of reasoning and action, and an error recovery mechanism that allows the model to self-correct during execution [10][11]. - The reward design incorporates task-success rewards and format regularization rewards, focusing on the final success of tasks while minimizing interference from intermediate reasoning semantics [11][12]. Group 4: Performance Evaluation - DeepThinkVLA outperforms existing models across various tasks, achieving an average success rate of 97.0%, with specific task success rates of 99.0% for Object tasks and 96.4% for Goal tasks [14][15]. - The model demonstrates superior robustness compared to top autoregressive models, showcasing its effectiveness in complex robotic operations [15][16]. Group 5: Future Directions - Future enhancements may include integrating additional sensory data, expanding to more complex collaborative tasks, optimizing efficiency, and constructing larger datasets to improve model generalization [23][24].