Multi-modal Fusion - filings, earnings calls, financial reports, news - Reportify

Multi-modal Fusion

Search documents

纯图像理解的时代该翻篇了！MMDrive：给自动驾驶装上「多模态大脑」

自动驾驶之心· 2025-12-18 03:18

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球论文作者 | Minghui Hou等编辑 | 自动驾驶之心 "只看图说话"的自动驾驶视觉模型，在真实路况中够用吗？遮挡、恶劣天气、复杂空间关系……这些挑战让传统模型捉襟见肘。今天要介绍的这项研究，正是要为自动驾驶系统打造一个更懂"场景"、更会"思考"的视觉语言模型——MMDrive。一、为什么传统方法不够用了？论文标题：MMDrive: Interactive Scene Understanding Beyond Vision with Multi-representational Fusion 论文链接：https://arxiv.org/abs/2512.13177 作者单位：吉林大学，香港科技大学（广州），佐治亚理工学院，密歇根大学安娜堡分校 1. 缺乏三维感知能力：二维图像难以表达深度、空间布局等关键信息； 2. 语义融合能力有限：不同模态之间往往是"硬拼接"，未能实现语义对齐； 3. 关键信息提取效率低：在复杂动态环境中，模型 ...

Autonomous Driving

Multi-modal Fusion

Scene Understanding

Autonomous Driving

Multi-modal Fusion

Scene Understanding