Workflow
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%
量子位·2025-05-30 07:10

MME-VideoOCR团队 投稿 量子位 | 公众号 QbitAI 多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。 然而,当应用场景从静态图像拓展至 动态视频 时,即便是当前最先进的模型也面临着严峻的挑战。 MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。 主要贡献如下: 构建精细的任务体系: 高质量、大规模数据集: 包含了 1,464 个精选视频片段,覆盖不同的分辨率、时长与场景。 构建了 2,000 条高质量、经人工标注的问答对,确保评测的精确性。 揭示当前 MLLM 的能力边界与局限: 研究背景 视频作为一种信息密度更高、场景更复杂的模态,其 OCR 任务的难度远超静态图像: 1 运动模糊、光影变化、视角切换以及复杂的时序关联 等视频的动态因素,都对 MLLM 的视频文字识别构成了显著的障碍。 2 视频中的 文字信息形式复杂多样 ,既可能出现在画面主体、背景场景,也可能以屏幕注释、水印或弹幕的方式存在。这要求模型能够建立 稳定的时空视觉-文本关联,以实现对分布在不同位置与时间段文字信息的准确识别、整合与 ...