复旦最新LMAD:迈向可解释端到端VLM~
自动驾驶之心·2025-08-19 23:32
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 今天自动驾驶之心为大家分享 复旦大学、萨里大学、帝国理工学院 最新的工作! LMAD框架:多机制协同显著提升自动驾驶视觉语 言模型推理性能! 如果您有相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与 技术交流群加入 ,也欢迎添加小助理微信AIDriver005 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Nan Song等 编辑 | 自动驾驶之心 随着自动驾驶技术的快速发展,场景理解与行为可解释性成为核心研究方向。大型视觉语言模型(VLMs)在连接视觉与语言信息、解释驾驶行为方面展现出潜力,但现有方 法多通过微调VLMs处理车载多视图图像和场景推理文本,存在整体场景识别不足、空间感知薄弱等问题,难以应对复杂驾驶场景。 为此,本文提出LMAD框架一种专为自动驾驶设计的视觉语言框架。其借鉴现代端到端驾驶范式,通过引入初步场景交互(Preliminary Interaction,PI)机制和任务专用专家 适配器,增强VLMs与自动驾驶场景的对齐性,同时兼容现有VLMs并无缝集成规划导向 ...