Multi-modal Fusion
Search documents
纯图像理解的时代该翻篇了!MMDrive:给自动驾驶装上「多模态大脑」
自动驾驶之心· 2025-12-18 03:18
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Minghui Hou等 编辑 | 自动驾驶之心 "只看图说话"的自动驾驶视觉模型,在真实路况中够用吗?遮挡、恶劣天气、复杂空间关系……这些挑战让传统模型捉襟见肘。今天要介绍的这项研究,正是要为自 动驾驶系统打造一个更懂"场景"、更会"思考"的视觉语言模型——MMDrive。 一、为什么传统方法不够用了? 论文标题 :MMDrive: Interactive Scene Understanding Beyond Vision with Multi-representational Fusion 论文链接 :https://arxiv.org/abs/2512.13177 作者单位 :吉林大学,香港科技大学(广州),佐治亚理工学院,密歇根大学安娜堡分校 1. 缺乏三维感知能力 :二维图像难以表达深度、空间布局等关键信息; 2. 语义融合能力有限 :不同模态之间往往是"硬拼接",未能实现语义对齐; 3. 关键信息提取效率低 :在复杂动态环境中,模型 ...