字节开源高精度文档解析大模型Dolphin:轻量高效,性能超GPT4.1、Mistral-OCR!
量子位·2025-05-22 14:29
字节跳动刚刚开源一款全新文档解析模型—— Dolphin 。 与目前市面上各类大模型相比,这款轻量级模型不仅体积小、速度快,并且取得了令人惊艳的性能突破, 解析效率提升近2倍 。 Dolphin团队 投稿 量子位 | 公众号 QbitAI 测试结果显示,Dolphin在文档解析任务上解析准确率超越了 GPT-4.1、Claude3.5-Sonnet、Gemini2.5-pro、Qwen2.5-VL 等通用多 模态大模型,以及最近推出的号称最强OCR大模型的 Mistral-OCR 等垂类大模型。 论文已被收录于ACL 2025,项目链接可见文末。 突破性的两阶段解析方法 文档图像解析解决方案可以分为两大流派:集成式方法以及端到端方法。 集成式方法在链路中组装多个专家模型,端到端方法则利用视觉语言模型通过自回归解码直接生成结构化结果。 而Dolphin采用了全新的 "先解析结构后解析内容"(analyze-then-parse) 两阶段范式: 这种创新架构一箭双雕,既避免了传统商用方案中多OCR专家模型级联带来的错误累积问题,又克服了通用多模态大模型易丢失版面结构 信息、自回归解码效率低的痛点。 因为获取孤立的 ...