Workflow
金山与华科发布多模态模型MonkeyOCR v1.5:文档解析能力超越PaddleOCR-VL,复杂表格解析首次突破90%
KINGSOFTKINGSOFT(HK:03888) 量子位·2025-11-18 05:02

MonkeyOCR团队 投稿 量子位 | 公众号 QbitAI 是金山派来的猴子,复杂文档解析有救了! 2025年6月以来,多模态文档解析领域迎来新一轮研究热潮,该方向逐渐成为多模态理解及大模型数据来源的重要前沿课题。 在数字化办公与AI技术深度融合的今天,文档智能解析技术已成为信息抽取、检索增强生成和自动化文档分析的核心基石。 然而,现实世 界中的文档往往布局复杂、表格嵌套、内含图片公式,甚至跨页分布,这让许多现有的OCR (光学字符识别系统,Optical Character Recognition) 系统感到棘手。 △ 图1 MonkeyOCR v1.5再次突破多模态文档解析性能上限 为何需要更强的文档解析引擎? 想象一下这些场景: 从一份扫描的科研论文中,精准提取包含嵌套表格和复杂公式的内容。 将一份跨越多页、含有产品插图的商品目录表格,无损地还原为一个完整的结构化数据。 准确理解一份排版密集的报纸版面上,文本、图片和表格的正确阅读顺序。 传统的OCR系统在面对这些挑战时,往往力不从心。2025年6月,MonkeyOCR第一版本发布时提到此前的方法要么采用串联式流水线,容 易导致错误累积;要么采用端到 ...