刚刚,DeepSeek 发布 OCR 2
程序员的那些事·2026-01-27 15:40
转自: InfoQ 刚刚,DeepSeek 发布了 新模型 DeepSeek-OCR 2,采用创新的DeepEncoder V2方法,让AI能够根据图像的含义动态重排图像的各个部分,更接近人类的视觉编码逻 辑。在具体实现上,DeepSeek 团队在论文中称采用了 Qwen2-0.5B 来实例化这一架构。 而在 DeepSeek-OCR 2 中,这一思路被进一步推进。 根据技术报告,DeepEncoder V2 不再将视觉编码视为一次静态的、固定策略的扫描过程,而是引入了语义驱动的动态编码机制。模型会在编码阶段就开始判断哪些 区域更可能承载关键信息,并据此调整视觉 token 的分配与表达方式。 换句话说,视觉编码不再只是"预处理",而是已经提前进入了"理解阶段"。 和 DeepSeek 过往几乎所有重要发布一样,这一次依然选择了模型、代码与技术报告同时开源。项目、论文和模型权重已同步上线: 项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2 论文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main ...