DriveGPT4

Search documents
VLM岗位面试,被摁在地上摩擦。。。
自动驾驶之心· 2025-07-12 12:00
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 1. 自我介绍 自我介绍环节主要是让双方进入快速面试状态,这块没什么特别注意的,别磕巴就好,主要聊聊个人基本信息、教育背景、工作经历和技 能特长等等。 2. 项目面 因为我简历上面写一个RAG项目,所以面试官主要围绕RAG进行提问: 最近面试了理想汽车大模型岗位,被面试官强度拉满了...不仅问到了很多大模型的基础,从通用大模型到大模型微调,再到自动驾驶多模 态大模型全方面被拷打,尤其是对大模型如何落地自动驾驶进行了很长时间的讨论。毕竟理想的VLM是国内首个上车的,这块的经验积累 还是比较丰富。 本文章主要记录了本小菜研找实习的坎坷历程,欢迎大佬们给建议!!! 4. ... 通用大模型是面试的重点,面试官比较关心有没有横向对比近一年开源的SOTA大模型,这些模型在不同任务上有什么优劣势,以及大模型 微调比较细致的思考,这块涉及: 3. 技术问题回答 3.1 简单介绍一下大模型存在哪些问题?有什么好的解决方法? 3.2 如何看待自动驾驶大模型?以及如何落地自动驾驶大模型? 这块聊了很多自动驾驶大模型的工作,像经典 ...
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 11:54
以下是知识星球里面一位同学的提问: 请问VLA和VLM的区别是什么?现在推荐学哪个呢? 这两者互为表里: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型已经席卷各个领域,在智能驾驶领域,VLM也正在逐渐铺开落地量产。 不少入门的小伙伴也表示,现在大模型太重要了,想要入门学习,但有点拿不准方向。 1、VLM可以理解基础的能力,可以是通用的检测、问答、空间理解、思维链等等能力 2、VLA更侧重Action的能力,最终目的是为了做动作,在自动驾驶中可以理解为自车轨迹预测的能力,通时预 测的轨迹又要尽可能的符合人类的理解,这又进一步依赖vision和language的基本能力,比如我要解释这个行 为,可以使用思维链的形式一步步推理分析,这里面依赖自动驾驶基础的感知(行人在哪里,2D坐标,3D位置 等等) 这两者没办法完全独立的学习,我认为的方式应该是先学VLM,再去扩展到VLA VLM接扩散模型就可以预测轨迹,也就是Action,这块就涉及到多模轨迹的好处了,面对不确定的环境,单模 的能力有限,多模的上限是更高的 最后欢迎大家加入知识星球,硬核资料在星球置 ...