3D ViT
Search documents
大雨解读理想L9搞全线控底盘底层逻辑
理想TOP2· 2026-02-08 04:51
2026年2月6日李想B站视频指出传统2D Vit无法真正理解物理世界,供应商芯片视频编码器是黑盒,无法 修改。通过强大编译团队,马赫100芯片用数据流架构,从而有足够算力运行3D Vit。 3D ViT就是不再输入一张图,而是一个视频流片段(Clips),以前的 Token 是一个二维图片补丁, 现在的 Token 是一个时空管——它既包含了这个物体在空间上的位置,也包含了它在时间轴上的变化。 其实大家都在处理视频流,为什么李想现在特意强调"转向 3D ViT"? 区别在于"很多"运行在上一代芯片的端到端模型,是通过2D ViT提取特征后,通过连续几帧的堆 叠,扔进一个时间融合模块里,是一个混合架构。它的本质是:先看图,再脑补动画 转向3D ViT可以理解为原生支持处理连续视频流,是天生就在看电影。 有人会说,这不就是2D转3D么,其实这是两个概念。大家讲的2D转3D通常说的是视角转换,比 如BEV 鸟瞰图。而2D ViT转向3D ViT指的是特征提取维度,这里的3D指的不是空间坐标x,y,z而是张 量:是高、宽和时间。 上一代芯片不能原生支持,李想在视频中提到了原因,简单理解就是:内存带宽和数据搬运效率 ...