理想VLM/VLA盲区减速差异
 理想TOP2·2025-10-18 08:44
在写一个VLM VLA 在场景上的差异 举个最简单的例子: 盲区减速 原作者为微博用户大懒货 原文链接: https://weibo.com/2062985282/Q95d6BJkn 原内容: 这里我们能感受到的就是端到端模型是听了VLM模型的减速指令后进行的减速,因此就有割 裂感/规则感【都减p速到8-12km/h ,不考虑路口场景差异】etc :而VLA是另一逻辑 VLA的工作逻辑是用自研的基座模型去理解场景,因此是直接构建【盲区类的场景理解】 工作流是: 视频编码进LLM,LLM综合判断道路场景,宽度,流量etc … 然后直接输出Action 所以你的体感发现VLA的盲区减速档位更多了【接近不离散】,特别是不同道路的盲区减速的 G值差异很大,更加匹配场景交通流。而并非是以前e2e 听VLM这种感觉。 这个就是类似的【原生】的减速Action,而并非是双系统的指令体感。 E2E+VLM,策略是怎么做的? 首先VLM是一个视觉语言动作模型,因此研发会找大量【其实也没多少】,LLM特性而已。 丁字路口的场景视频和图像。让以Qwen这个基座模型具备丁字路口的场景的理解能力。 然后VLM的工作逻辑就是: 感知到无 ...