Workflow
视觉大语言模型(VLM)
icon
Search documents
从零开始!自动驾驶端到端与VLA学习路线图~
自动驾驶之心· 2025-08-24 23:32
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 端到端和VLA涉及的技术栈实在是太多了,今天就从小白入门学习的角度和大家聊聊端到端和VLA的发展路线。 首先看一下大语言模型的近五年的关键时间线: 聊大模型,离不开Transformer,为了方便后续理解,我们进行一个通俗的概括。 进一步展开Token化、BPE、位置编码等等~ Transformer: Attention is all you need 3. 合并频次最高的两个非结束字符组成一个新 字符,并重新统计所有字符频次(新字符会分 走部分原高频字符的频次 ) 4. 重复2-3直至字符数量达标or迭代轮次达标 $$P E_{(p o s,2i)}=s i n(p o s/10000^{2i/d_{\mathrm{model}}})$$ PE(pos,2i+1) = COS(pos/1000022/dmodel 7 x D 向量 "这是一段文字" Tokenizer + Positional 231 34 462 4758 762 38 7 x D 向量 Encoding [EQgmbedding 7 ...