视觉语言行动模型 - filings, earnings calls, financial reports, news

视觉语言行动模型

Search documents

Zhong Guo Zhi Liang Xin Wen Wang· 2025-05-15 07:56

在自动驾驶领域，技术的演进如同一场接力赛，从早期的基于规则的系统，到端到端模型，再到视觉语言模型（VLM），如今已经发展到视觉语言行动模型（VLA）阶段。每一步的跨越，都不仅仅是技术的迭代，"人工智能"实质性应用的范例。什么是VLA？ VLA（Vision-Language-Action Model）是视觉-语言-行为大模型，它融合了视觉、语言和行动三种能力，将其统一在一个模型里，只输入到机器就可执行动作的端到端映射，从而赋予模型强大的3D空间理解、逻辑推理和行为生成能力，让自动驾驶能够感知、思考和适应环境。 VLA模型由多个关键模块组成，包括视觉编码器、语言编码器、跨模态融合模块和动作生成模块。视觉编码器负责从图像或视频中提取高层次视觉特征，语言编码器则处理自然语言输入，跨模态融合模块将视觉和语言特征进行整合，而动作生成模块则根据融合后的信息生成车辆的控制指令。 VLA的核心特性包括多模态感知与决策、全局上下文理解和系统透明性。它能够基于视觉和语言信息进行实时感知，并通过"思维链"技术构建类人逻辑，推理复杂场景下的最优驾驶决策。此外，VLA能够理解长达数十秒的全局路况信息，这对于施工工区、潮汐车道 ...

“智驾”是否该叫停？理想汽车CEO李想回应！小米、理想、问界改口，“智驾”更名为“辅助驾驶”

Mei Ri Jing Ji Xin Wen· 2025-05-07 15:14

5月7日，在今晚的理想汽车"AI Talk 第二季"节目中，主持人提问理想汽车CEO李想，"今天的智能驾驶其实走到了一个新的十字路口上，有的人说甚至觉得智能驾驶应该被叫停，你怎么想？" 图片来源：理想汽车微博视频截图李想表示，"我觉着我们这么多年，从规则算法，做到了端到端+VLM，然后今天真正地迈入到了VLA（视觉语言行动模型）的阶段，我觉得比较像什么？比较像黎明前的黑暗吧。我觉得黎明马上就要来了，但是会先经历一个黑暗的过程，之所以有黑暗是因为要迎来黎明。" 李想认为，正因为辅助驾驶行业遇到了问题，所以自己最喜欢、最开心的方式就是去解决行业解决不了的问题。"就像我们推出增程式产品就是为了解决电池成本高、充电难的问题，推出 5C（电池）也是为了解决充电慢、等待时间长的问题。我们愿意去解决行业中遇到的各种问题。" 李想表示，目前理想汽车做操作系统也是因为过去传统的车控、智控操作系统性能差、开发缓慢、芯片匹配周期长，而这些问题的存在恰好是自身的价值所在。随后，主持人提问李想，"为什么人类一定需要智能驾驶呢？为什么科技不能就此止步呢？" 对此，李想表示，"只要人类会雇佣专业司机，我觉得人工智能技术其实就 ...