Workflow
多模态长文本理解测评首发:46款模型无一攻克128K难关
量子位·2025-05-23 06:14

MMLongBench团队 投稿 量子位 | 公众号 QbitAI 多模态长文本理解 有综合性的评判标准了! 来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联合提出了 MMLongBench ,旨在全面评估多模态模型 的长文本理解能力。 随着多模态大模型的单次推理的文本窗口快速提升,长上下文视觉-语言模型(Long-Context Vision-Language Models; LCVLMs)应运而 生,使模型能够在单次推理中处理数百张图像与较长的交错文本。 但当前,由于评估多模态长文本的基准测试稀缺,现有的测试集仅关注单个任务,比如大海捞针或者长文档问答。目前尚不清楚现有的模型在 长上下文环境下的 综合表现 ,具体在哪些任务上存在短板,以及它们对不同输入长度变化的适应能力究竟如何。 结果显示,无论闭源还是开源模型,在长上下文视觉-语言任务上都面临较大挑战 ,仍有巨大的提升空间。 此外,进一步的错误分析表明,(1) OCR能力和 (2) 跨模态检索能力仍然是当前LCVLMs在处理长文本时的瓶颈。 多任务多模态长文本测试集 多任务的数据构建 MMLongBench是一个 ...