MOCR(Multimodal OCR)
Search documents
全新OCR将图片变代码无损重绘!华中科大&小红书发布3B模型,图形重建超越Gemini 3 Pro
量子位· 2026-03-26 04:12
MOCR团队 投稿 量子位 | 公众号 QbitAI 一个3B参数的小模型,在文档解析上打败了一众开源大模型,在图形重建上甚至反超了Gemini 3 Pro——而且不只是某一项指标,是在六个 图形重建基准上全面超越。 这就是华中科技大学与小红书hi lab联合推出的 MOCR (Multimodal OCR) 。 它提出了一个大胆的新范式: 不只识别文字,而是「解析一切」 ——文字、表格、图表、公式、流程图、化学结构式、UI组件……通通变成 可编辑、可渲染的结构化代码。用论文的话说,这是把文档图形从「二等公民」升级为「一等解析目标」。 更关键的是,这不只是一个技术上的改进,而是一次范式级别的重新定义:文档解析的终点不应该是「把字认出来」,而应该是「把页面上的 一切信息都变成机器可理解、可复用的结构化表示」 △ MOCR整体流程:给定文档图片,将页面上所有元素统一解析为结构化输出,忠实重建原始文档 但传统OCR怎么处理? 框出来,裁成图片,丢掉。 这意味着文档里大量的结构化语义信息在解析环节就被永久性地丢弃了。论文中用一张对比图把这个问题说得很清楚: △ 传统OCR vs MOCR:传统方案把图形当像素丢弃,M ...