视觉语言模型VLM

Search documents
基于模仿学习的端到端决定了它的上限不可能超越人类
自动驾驶之心· 2025-09-24 06:35
基于模仿学习的端到端本质只是在模仿人类,对物理世界的理解并不透彻。 因此VLA提供了这样一种可能,从模仿人类到成为人类。 业内这两年追捧的端到端,标志着智能驾驶从规则驱动向数据驱动的根本转变。但在实际量产中,端到端虽然提供了一个打通上下游视角的能力,但面对复杂的困难场景 仍然受限。如果在自动驾驶公司工作过,就知道量产模型的迭代仍然被限制在无限corner case的循环中。这里也借用李想AI Talk的一段话: " 端到端比较像什么呢?端到端比较像哺动物的智能,比如像马戏团里的一些动物,向人类学习怎么骑自行车。它学了人类的这些行为,人类怎么去做出各种的行为的开 车。但是它对物理世界并不理解,它只是看到了一个什么样的三维的图像,知道自身的速度,并给出了一个什么样的轨迹,所以它应付大部分的泛化是没有问题的,去面 对它从来没有学到的、特别复杂的,其实就会遇到问题。所以这时候我们也会配合,视觉语言模型 VLM,然后放进来。但是我们能够用到的视觉语言模型这些开源的, 用在交通上的能力都非常的有限,所以只能起到一些非常有限的辅助的一个作用。我觉得第二个阶段就是哺乳动物智能运作的一个方式。 " VLA本质上也可以算作是一种 ...