Workflow
科学AI助手
icon
Search documents
ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力
机器之心· 2025-08-21 13:08
本文第一作者杨昱威,来自澳大利亚国立大学,合作者包括章泽宇(澳大利亚国立大学)、侯云钟(澳大利亚国立大学)、李卓婉(约翰霍普金斯大学)、 Gaowen Liu(思科)、Ali Payani(思科)、丁源森(俄亥俄州立大学)以及郑良(澳大利亚国立大学)。 背景与动机 在科研、新闻报道、数据分析等领域,图表是信息传递的核心载体。要让多模态大语言模型(MLLMs)真正服务于科学研究,必须具备以下两个能力: 1. 精准识别与理解图表元素(如坐标轴、图例、数据点、标题等); 2. 对图表数据进行深度推理(如计算差值、比较趋势、跨子图推理等); 然而,即便是最先进的开源多模态大语言模型(MLLMs),在高难度科学图表理解基准测试上准确率依旧徘徊在 30%–50%。尽管合成数据集易于生成,但它们通 常存在以下问题: 风格单一:缺乏视觉和内容多样性; 缺乏真实性:与真实图表的分布差异较大; 数据模式受限:生成的图表数据过于简单,无法模拟复杂场景; 数据集亮点 论文标题:Effective Training Data Synthesis for Improving MLLM Chart Understanding 论文地址:h ...