EMMA基准测试 - filings, earnings calls, financial reports, news - Reportify

EMMA基准测试

Search documents

ICML 2025 Spotlight | 多模态大模型暴露短板？EMMA基准深度揭秘多模态推理能力

机器之心· 2025-05-20 04:58

「三个点电荷 + Q、-2Q 和 + 3Q 等距放置，哪个向量最能描述作用在 + Q 电荷上的净电力方向？」在解这道题时，我们可以通过绘制受力分析草图轻松解决。但即使是先进的多模态大语言模型，如 GPT-4o，也可能在理解「同性相斥」的基本物理原则时，错误地判断斥力的方向（例如，错误地将 + 3Q 对 + Q 的斥力方向判断为右下方而非正确的左上方）。这个看似简单的物理问题，却暴露了多模态大模型一个「致命缺陷」：当前的 MLLMs 仍然无法进行需要深度视觉与文本融合的复杂多模态推理！一项最新研究推出的 EMMA 基准测试，如同一面「照妖镜」，揭示了即使是顶尖 MLLMs 也在这关键能力上显著不足。目前该研究已被 ICML 2025 接收为 spotlight，代码数据已全部开源！目前已有多个模型 / 方法在 EMMA 上验证其多模态推理能力，研究发现：即使最先进的模型 ——Gemini-2.5-pro-exp-03-25 ，或者是能够进行视觉工具调用的 o3/o4-mini 模型在 EMMA 上的表现仍然落后人类专家超 20% ！标题： Can MLLMs Reason in Multi ...

多模态大语言模型

多模态推理

EMMA基准测试

Gemini-2.5-pro-exp-03-25

多模态大语言模型

多模态推理

EMMA基准测试

Gemini-2.5-pro-exp-03-25