清华&小米团队发布VLA模型综述
理想TOP2·2025-07-04 02:54
以下文章来源于具身进化 ,作者一起学习 具身进化 . 智启形随,进化无界。 一、 自动驾驶的技术范式演进 自动驾驶技术正从简单的感知-控制,向更高级的认知智能演进,最新的自动驾驶模型可以分为三大范式: ●端到端自动驾驶 (End-to-End AD): 将传感器输入直接映射到驾驶动作。此模式高效但缺乏可解释性,难以处理需要高级推理的"长尾"场景。 ●用于自动驾驶的视觉语言模型 (VLMs for AD): 引入视觉语言模型来理解和解释复杂的交通场景,显著提升了系统的可解释性。但其输出的 语言与车辆的实际控制脱节,存在"行动鸿沟"。 ●用于自动驾驶的视觉-语言-行动模型 (VLA for AD): 当前最新的范式。它在一个统一模型中整合视觉感知、语言理解和动作执行,实现了感 知、推理和行动的闭环。车辆遵循自然语言指令直接输出动作或者轨迹。 二、 VLA自动驾驶模型的核心架构 一个典型的VLA模型由输入、处理、输出三部分构成,旨在无缝整合环境感知、高级指令理解与最终的车辆控制。 1.多模态输入 (Inputs): ○视觉与传感器数据:视觉是系统的核心输入,技术已从早期的单前视摄像头发展到如今的多摄像头环视系统。为 ...