Workflow
模块化VLA架构
icon
Search documents
英伟达开源最新VLA,能否破局L4自动驾驶?
Tai Mei Ti A P P· 2025-12-02 13:01
图片由AI生成 随着大模型深度融入汽车行业,行业竞争正从功能实现转向高阶智驾能力的比拼,而VLA(Vision-Language-Action Model,视觉语言行动模型)被视为下一 代技术竞争的关键变量。 目前,VLA正成为智能驾驶领域公认的下一代核心技术,相关企业都在加码布局。国内理想汽车、小鹏汽车、长城汽车(已搭载于魏牌蓝山)、元戎启行 等都已在VLA上实现量产落地。 解决传统"端到端"模型痛点 传统的端到端模型像一个"黑盒",可能"看得见但看不懂",在面对违规左转、行人闯入等长尾场景时容易"翻车"。 而相较于传统"端到端"模型,VLA通过引入语言模态作为中间层,将视觉感知转化为可解释的逻辑链,从而具备了处理长尾场景和复杂突发状况的潜力,让 机器像人类一样"观察、推理、决策",而不仅仅是海量数据的简单映射。 当地时间12月1日,英伟达(NVIDIA)宣布正式开源其最新自动驾驶"视觉—语言—行动"(VLA)模型 Alpamayo-R1,该模型能够同时处理车辆摄像头画 面、文本指令,并输出行车决策,已在GitHub和Hugging Face平台开源,并同步推出Cosmos Cookbook开发资源包。 这 ...