视觉 - 语言 - 动作（VLA）模型 - filings, earnings calls, financial reports, news - Reportify

视觉 - 语言 - 动作（VLA）模型

Search documents

刚刚，智元提出SOP，让VLA模型在真实世界实现可扩展的在线进化

机器之心· 2026-01-06 09:38

对于电子产品，我们已然习惯了「出厂即巅峰」的设定：开箱的那一刻往往就是性能的顶点，随后的每一天都在折旧。但对于通用机器人来说，这个设定必须被颠覆。试想，如果一个在实验室里完成训练的 AI 机器人，一进家门面对光线稍暗的房间或堆满杂物的茶几就大脑宕机，那它就永远只能是一个昂贵的实验品。这正是当前具身智能面临的尴尬真相：我们在互联网知识里训练出了博学的预训练模型，可一旦让它们走进充满未知的物理世界，这些「理论巨人」往往会因为环境变化而束手无策：「懂」很多道理，却依然干不好家务。通用机器人的出路，绝不应是被困在出厂设置里的「静态标品」，而应当是能在真实部署中、在每一次失败和纠正中持续变强的生命体。为了实现这一跨越，智元具身研究中心提出了 SOP（Scalable Online Post-training）框架。在过去几年里，基于互联网海量数据预训练的 VLA（视觉 - 语言 - 动作）模型，虽然赋予了机器人一定的通用泛化能力，但始终面临一个难以逾越的鸿沟：「懂」不代表「能」。预训练模型或许「懂」什么是叠衣服，但当它真正面对一件材质松软、光照复杂的真实衣物时，往往会因为分布偏移而束手无策。 ...

视觉 - 语言 - 动作（VLA）模型

SOP（Scalable Online Post-training）框架

智元精灵G1（Agibot G1）机器人

视觉 - 语言 - 动作（VLA）模型

SOP（Scalable Online Post-training）框架

智元精灵G1（Agibot G1）机器人

英伟达用千万Clip搞定了反事实推理VLA！安全指标提升了20%......

自动驾驶之心· 2026-01-05 03:33

Core Insights - The article discusses the development of the Counterfactual Vision-Language-Action (CF-VLA) model, which incorporates self-reflective reasoning to enhance the safety and accuracy of autonomous driving systems [3][56] - CF-VLA aims to address the limitations of existing Vision-Language-Action (VLA) models by enabling them to reflect on their planned actions before execution, thereby improving decision-making in complex driving scenarios [10][56] Group 1: Model Development - CF-VLA introduces adaptive reasoning and self-reflection capabilities, allowing the model to adjust its actions based on potential outcomes identified through counterfactual reasoning [3][10] - The model generates time-segmented meta-actions to summarize driving intentions and utilizes these to perform counterfactual reasoning, identifying unsafe behaviors and correcting them before final trajectory generation [3][10] - The "rollout-filter-label" data processing pipeline is designed to extract high-value scenarios from the model's rollout results, enhancing the training process for counterfactual reasoning [11][14] Group 2: Performance Metrics - Experiments on large-scale driving datasets show that CF-VLA improves trajectory accuracy by up to 17.6% and safety metrics by 20.5% compared to baseline models [14][56] - The model demonstrates adaptive reasoning capabilities, activating counterfactual reasoning primarily in complex scenarios, thus optimizing computational resources during testing [16][48] - The introduction of meta-actions significantly enhances the model's performance, reducing minimum average displacement error (MinADE) and minimum final displacement error (MinFDE) by approximately 9% compared to pure trajectory models [43][44] Group 3: Practical Applications - CF-VLA's self-reflective capabilities allow it to make context-specific corrections, improving safety and traffic efficiency in various driving scenarios, such as avoiding congestion and responding to pedestrians [57] - The model's ability to dynamically decide when to engage in reasoning helps maintain a balance between computational efficiency and decision-making quality [21][48] - The findings suggest that counterfactual self-reflection can effectively bridge reasoning and control in autonomous driving systems, providing a framework for future advancements in the field [56][57]

Nvidia(US:NVDA)

反事实推理

自适应推理

视觉 - 语言 - 动作（VLA）模型

反事实推理

自适应推理

视觉 - 语言 - 动作（VLA）模型

突破2D-3D鸿沟！北大提出VIPA-VLA，视频解锁机器人精准操控

具身智能之心· 2025-12-26 00:55

编辑丨机智流当我们用手机拍摄一段 "拿起杯子放进抽屉" 的视频时，大脑能瞬间从 2D 画面中捕捉到杯子的位置、距离、手的运动轨迹等 3D 空间信息。但对于依赖视觉-语言-动作（VLA）模型的机器人来说，这却是一个巨大的挑战——它们只能从 2D 像素中解读语义，却难以建立与 3D 物理世界的有效关联，就像蒙上双眼在三维空间中摸索，常常出现"抓空""放偏"等操作失误的尴尬局面。这一"2D 感知与 3D 动作脱节"的问题，长期制约着机器人技术的落地应用。现有 VLA 模型大多依赖 2D 视觉输入制定行动策略，却要在真实的 3D 物理环境中执行任务，这种感知与行动的割裂，导致机器人的空间定位精度低、任务通用性差，难以适应复杂多变的现实场景。如何让机器人像人类一样，从 2D 视觉信息中精准推断 3D 空间关系，成为机器人学习领域亟待突破的核心难题。针对这一问题，来自北京大学、中国人民大学和 BeingBeyond（北京智在无界）的研究团队提出了一种全新的空间感知VLA预训练范式，通过人类演示视频的视觉-物理对齐，让模型在学习机器人策略前就掌握3D空间理解能力。他们构建了Hand3D数据集，设计 ...

视觉 - 语言 - 动作（VLA）模型

Hand3D数据集

视觉 - 语言 - 动作（VLA）模型

Hand3D数据集

从 2D 感知到 3D 预测：GeoPredict 重构VLA模型的几何推理能力

具身智能之心· 2025-12-25 01:41

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Jingjing Qian等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。在机器人操纵领域，视觉 - 语言 - 动作（VLA）模型凭借大规模预训练数据的语义与视觉先验，实现了跨任务泛化，但长期受限于 2D-centric 的反应式决策范式，难以应对需要精准 3D 空间推理、长时程物理一致性的复杂任务。香港中文大学（深圳）、湖南大学、理想汽车等联合团队提出的 GeoPredict 框架，以 "预测性运动学 + 3D 高斯几何" 为双核心，通过 "轨迹级运动预测 - 3D 高斯场景建模 - 训练时监督推理时轻量化" 的创新架构，首次将未来感知的几何先验注入连续动作 VLA 模型，彻底突破了传统方法的空间推理瓶颈。论文题目：GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Preci ...

视觉 - 语言 - 动作（VLA）模型

GeoPredict框架

视觉 - 语言 - 动作（VLA）模型

GeoPredict框架

近300篇工作！伦敦国王学院x港理工全面解构VLA模型，一份清晰系统的导航图

具身智能之心· 2025-12-17 00:05

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Chao Xu等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。这篇综述对视觉 - 语言 - 动作（VLA）模型进行了全面剖析，是该领域极具价值的导航指南。核心结论是：VLA 模型正推动机器人技术变革，其发展遵循 "基础模块→历史里程碑→核心挑战" 的逻辑，五大核心挑战（表征、执行、泛化、安全、数据与评估）是当前研究的关键突破口，相关结构与关键信息可通过文中图表直观呈现。核心定位与结构设计文章以研究者的自然学习路径为框架，从基础到前沿层层递进，既适合新手入门，也为资深研究者提供方向。基础模块：VLA 模型的核心构成 VLA 系统由感知、大脑、动作三大核心模块组成，近年呈现明显技术迭代趋势，各模块的关键技术选型与代表模型可参考相关数据集与里程碑表格。论文标题：An Anatomy of Vision-Language-Action Models: From Modules ...

视觉 - 语言 - 动作（VLA）模型

家庭机器人

工业与野外机器人

视觉 - 语言 - 动作（VLA）模型

家庭机器人

工业与野外机器人

新国大团队首创！当VLA具备4D感知能力后会怎么样？

具身智能之心· 2025-12-15 03:17

点击下方卡片，关注" 具身智能之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球点击按钮预约直播视觉-语言-动作（VLA）模型在通用机器人任务中展现出应用潜力，但在需要细粒度表征的时空一致机器人操作任务中仍面临诸多挑战。现有方法通常会将三维位置信息嵌入视觉表征，以此提升动作的空间精度，然而这类方法难以实现对动作执行过程的时序一致性控制。 VLA-4D 是一款具备4D感知能力的通用VLA模型，专门用于实现时空一致的机器人操作。该模型的设计核心包含两大关键模块：其一为 4D感知视觉表征，先提取视觉特征，再将一维时间信息嵌入三维位置信息以生成4D嵌入特征，随后通过交叉注意力机制将其融合为统一的视觉表征；其二为时空动作表征，VLA- 4D为传统的空间动作表征拓展了时序信息维度，从而支持时空层面的动作规划，并将多模态表征与大语言模型（LLM）进行对齐，以完成时空动作预测。在这一统一框架下，经特殊设计的视觉表征与动作表征可协同作用，让机器人操作既具备空间流畅性，又能保证时序一致性。此外，本工作还为现有VLA数据集补充了时序动作标注，用于模型的微调训练。论文标题： VLA- ...

视觉 - 语言 - 动作（VLA）模型

视觉 - 语言 - 动作（VLA）模型

理想自动驾驶负责人回应宇树王兴兴对VLA质疑：空谈架构不如看疗效

Feng Huang Wang· 2025-12-10 10:27

郎咸朋还分享了公司CEO李想的观点，李想认为，未来五到十年，具身机器人核心将有两种形态：汽车类的具身机器人、人形类的具身机器人。理想的VLA不仅服务于现在的理想各类汽车产品形态，也将服务于未来的汽车类具身机器人。凤凰网科技讯12月10日，理想自动驾驶负责人郎咸朋发布长文，回应了宇树科技创始人王兴兴对VLA 的一些担忧。在今年8月的2025年世界机器人大会上，王兴兴表示当下火热的VLA模型(视觉-语言-动作) 是"相对比较傻瓜式的架构"，并表示"保持比较怀疑的态度"。郎咸朋表示，空谈架构不如看疗效。在自动驾驶领域，脱离了海量真实数据谈模型架构都是空中楼阁，我们之所以坚持VLA，是因为我们拥有数百万辆车构建的数据闭环，这让我们能在当前算力下，把驾驶水平做到接近人类。郎咸朋认为，经过两个月多的"实践出真知"后，VLA就是自动驾驶最好的模型方案，具身智能最终拼的是整体的系统能力。 ...

视觉 - 语言 - 动作（VLA）模型

视觉 - 语言 - 动作（VLA）模型

上交&ai lab团队联合提出MM-ACT：一个统一的VLA模型实现感知-规划-执行的高效协同

具身智能之心· 2025-12-02 09:30

点击下方卡片，关注" 具身智能之心 "公众号编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。在机器人操作领域，"通用性" 与 "高效性" 的平衡始终是核心挑战——现有方案要么缺乏动态建模能力，难以应对复杂环境交互；要么推理速度慢，无法满足实时控制需求。上海 AI 实验室、上海交通大学等团队联合提出的 MM-ACT ，以 "统一多模态表征 + 并行解码架构" 为核心，创新引入 "上下文共享多模态学习" 范式，实现了文本、图像、动作的协同生成，既具备精准的语义理解与环境预测能力，又能高效输出执行动作，在模拟与真实场景中均展现出超越现有方案的综合性能。为什么需要重构视觉 - 语言 - 动作（VLA）模型架构？当前 VLA 模型陷入 "三重矛盾"：语义理解与动态建模难以兼顾、多模态生成效率低下、训练目标存在错位，核心问题可归结为 "无法在统一框架内实现'感知 - 规划 - 执行'的高效协同"： | 方案类型 | 代表思路 | | 核 ...

视觉 - 语言 - 动作（VLA）模型

Artificial Intelligence

视觉 - 语言 - 动作（VLA）模型

Artificial Intelligence

估值超390亿元，头部具身智能大模型创企发布最强VLA模型！

Robot猎场备忘录· 2025-11-27 05:06

温馨提示：点击下方图片，查看6月原创报告，11月最新研报已上传星球内（共260页）说明：欢迎约稿、刊例合作、行业交流，行业交流记得先加入 "机器人头条"知识星球，后添加（微信号：lietou100w ）微信；若有侵权、改稿请联系编辑运营（微信：li_sir_2020）；正文： π0到π0.5再到π*0.6，机器人学会自我进化，最强 VLA模型，来了！公司创始人Sergey Levine表示，通过对 π*0.6 模型进行微调，可以使其在多种任务上表现出色，除了处理衣物之外的任务都可以达到90%成功率，而且任务处理的效率也大大提升了。 —— π*0.6 模型的核心亮点：注：π*0.6 的机制与性能解读 2025年11月18日，估值超390亿、拥有全球具身智能领域"最强创始团队的具身智能大模型初创公司 [Physical Intelligence] （简称 PI或 π ）在其上一代大模型 π0.5基础上，发布公司最新视觉-语言-动作（ VLA）大模型 π*0.6，凭借创新的RECAP训练方法，首次实现了机器人在真实复杂环境中"从错误中学习、从实践中进化"的核心能力，将长 ...

视觉 - 语言 - 动作（VLA）模型

视觉 - 语言 - 动作（VLA）模型

华科&清华最新DeepThinkVLA：如何让模型 “会思考、能落地”？

具身智能之心· 2025-11-24 10:02

Core Insights - The article presents DeepThinkVLA, a new model that addresses the challenges in the visual-language-action (VLA) domain by integrating a mixed attention decoder and a two-stage training pipeline, achieving a task success rate of 97.0% on the LIBERO benchmark, setting a new performance standard for VLA models [2][14]. Group 1: Model Architecture - DeepThinkVLA resolves the "modal conflict" between reasoning and action by employing a mixed attention mechanism that allows for efficient processing of both modalities within a single decoder [4][10]. - The model features a dynamic switching mechanism between causal attention for reasoning generation and bidirectional attention for action generation, significantly reducing inference latency and enhancing performance [4][10]. Group 2: Training Methodology - The training process consists of a two-stage pipeline combining supervised fine-tuning (SFT) and reinforcement learning (RL), which enhances the model's reasoning capabilities while ensuring effective action execution [6][8]. - The SFT phase focuses on building foundational reasoning skills through a carefully designed data augmentation pipeline, resulting in a dataset of 273,465 annotated frames [10][12]. Group 3: Innovations and Mechanisms - Two key innovations are highlighted: the probabilistic decomposition of reasoning and action, and an error recovery mechanism that allows the model to self-correct during execution [10][11]. - The reward design incorporates task-success rewards and format regularization rewards, focusing on the final success of tasks while minimizing interference from intermediate reasoning semantics [11][12]. Group 4: Performance Evaluation - DeepThinkVLA outperforms existing models across various tasks, achieving an average success rate of 97.0%, with specific task success rates of 99.0% for Object tasks and 96.4% for Goal tasks [14][15]. - The model demonstrates superior robustness compared to top autoregressive models, showcasing its effectiveness in complex robotic operations [15][16]. Group 5: Future Directions - Future enhancements may include integrating additional sensory data, expanding to more complex collaborative tasks, optimizing efficiency, and constructing larger datasets to improve model generalization [23][24].

视觉 - 语言 - 动作（VLA）模型

思维链（CoT）推理

Artificial Intelligence

视觉 - 语言 - 动作（VLA）模型

思维链（CoT）推理

Artificial Intelligence