Workflow
视觉语言行动模型
icon
Search documents
三问三解 | VLA
在自动驾驶领域,技术的演进如同一场接力赛,从早期的基于规则的系统,到端到端模型,再到视觉语言模型(VLM),如今已经发展到视觉语言行 动模型(VLA)阶段。每一步的跨越,都不仅仅是技术的迭代,"人工智能"实质性应用的范例。 什么是VLA? VLA(Vision-Language-Action Model)是视觉-语言-行为大模型,它融合了视觉、语言和行动三种能力,将其统一在一个模型里,只输入到机器就可执 行动作的端到端映射,从而赋予模型强大的3D空间理解、逻辑推理和行为生成能力,让自动驾驶能够感知、思考和适应环境。 VLA模型由多个关键模块组成,包括视觉编码器、语言编码器、跨模态融合模块和动作生成模块。视觉编码器负责从图像或视频中提取高层次视觉特 征,语言编码器则处理自然语言输入,跨模态融合模块将视觉和语言特征进行整合,而动作生成模块则根据融合后的信息生成车辆的控制指令。 VLA的核心特性包括多模态感知与决策、全局上下文理解和系统透明性。它能够基于视觉和语言信息进行实时感知,并通过"思维链"技术构建类人逻 辑,推理复杂场景下的最优驾驶决策。此外,VLA能够理解长达数十秒的全局路况信息,这对于施工工区、潮汐车道 ...
“智驾”是否该叫停?理想汽车CEO李想回应!小米、理想、问界改口,“智驾”更名为“辅助驾驶”
Mei Ri Jing Ji Xin Wen· 2025-05-07 15:14
5月7日,在今晚的理想汽车"AI Talk 第二季"节目中,主持人提问理想汽车CEO李想 ,"今天的智能驾驶其实走到了一个新的十字路口上,有的人说甚至觉得 智能驾驶应该被叫停,你怎么想?" 图片来源:理想汽车微博视频截图 李想表示,"我觉着我们这么多年,从规则算法,做到了端到端+VLM,然后今天真正地迈入到了VLA(视觉语言行动模型)的阶段,我觉得比较像什么? 比较像黎明前的黑暗吧。我觉得黎明马上就要来了,但是会先经历一个黑暗的过程,之所以有黑暗是因为要迎来黎明。" 李想认为,正因为辅助驾驶行业遇到了问题,所以自己最喜欢、最开心的方式就是去解决行业解决不了的问题。"就像我们推出增程式产品就是为了解决电 池成本高、充电难的问题,推出 5C(电池)也是为了解决充电慢、等待时间长的问题。我们愿意去解决行业中遇到的各种问题。" 李想表示,目前理想汽车做操作系统也是因为过去传统的车控、智控操作系统性能差、开发缓慢、芯片匹配周期长,而这些问题的存在恰好是自身的价值所 在。 随后,主持人提问李想,"为什么人类一定需要智能驾驶呢?为什么科技不能就此止步呢?" 对此,李想表示,"只要人类会雇佣专业司机,我觉得人工智能技术其实就 ...