Workflow
DrivePI
icon
Search documents
深扒特斯拉ICCV的分享,我们找到了几个业内可能的解决方案......
自动驾驶之心· 2025-12-23 00:53
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 编辑 | 自动驾驶之心 首先看上图,展示了Tesla标准的端到端自动驾驶方案,其中Large Neural Network可以为LLM(Large Language Model),也可以为非LLM架构,总之是一个具有强大 表征能力的大规模神经网络。这种架构通过直接从传感器输入到控制输出的映射,避免了传统模块化系统的复杂性和错误累积问题。然而,这种端到端架构在实际部 署中面临着如下三大核心挑战: 论文标题 :UniLION: Towards Unified Autonomous Driving Model with Linear Group RNNs 论文链接 :https://arxiv.org/pdf/2511.01768 项目链接 :https://github.com/happinesslz/UniLION UniLION主要特点:统一的3D骨干网络架构,基于线性组RNN实现线性计算复杂度,解决了传统Transformer在处理长序列数据时的计算效率瓶 ...
港大领衔DrivePI:统一自动驾驶理解、感知、预测和规划的空间智能4D MLLM
自动驾驶之心· 2025-12-22 09:20
编辑 | 自动驾驶之心 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Zhe Liu等 尽管多模态大语言模型(MLLMs)在各种领域展示了强大的能力,但它们在自动驾驶中生成精细化3D感知和预测输出的应用仍有待探索。本文提出了DrivePI,一种新 型的空间感知4D MLLM,作为统一的视觉-语言-行为(VLA)框架,同时兼容视觉-行为(VA)模型。我们的方法通过端到端优化,并行执行空间理解、3D感知(如3D占用 体素)、预测(如占用流)和规划(如动作输出)任务。为了获取精确的几何信息和丰富的视觉外观,我们的方法在统一的MLLM架构中集成了点云、多视角图像和语言指 令。我们还开发了一个数据引擎,用于生成文本-占用和文本-流问答对,以实现4D空间理解。 值得注意的是,仅使用0.5B参数的Qwen2.5模型作为MLLM主干网络,DrivePI作为单一统一模型,性能已经匹配或超越了现有的VLA模型和专业的VA模型。具体而 言,与VLA模型相比,DrivePI在nuScenes-QA上的平均准确率比 ...