DeepOCR
Search documents
两周复刻DeepSeek-OCR,两人小团队还原低token高压缩核心,换完解码器更实用
3 6 Ke· 2025-11-07 07:11
两人小团队,仅用两周就复刻了之前被硅谷夸疯的DeepSeek-OCR?? 复刻版名叫DeepOCR,还原了原版低token高压缩的核心优势,还在关键任务上追上了原版的表现。 完全开源,而且无需依赖大规模的算力集群,在两张H200上就能完成训练。 而DeepSeek-OCR想出了个反常识的解法——把文字渲染成图片,用视觉模态当压缩媒介。 DeepSeek-OCR的设计思想是"靠视觉压缩一切",通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销,解决了大 模型处理长文本的算力爆炸难题。 两人小团队能在短时间里复刻出核心能力,怎么做到的? 更实用的复刻版 先来简单回顾一下DeepSeek-OCR为啥会大爆。 大模型处理长文本时,算力会跟着序列长度呈二次方增长,几百页的文档就能把显存撑爆。 △ 这样一来,原本要几千个文本tokens才能承载的内容,几百个视觉tokens就够了,压缩比能做到7-20倍,而且10倍压缩下准确率还能保持97%。 也难怪它一开源就火了,还被称为"AI的JPEG时刻"。 而两人小团队复刻的核心策略也很明确,先把原版的逻辑架构精准还原。 DeepSeek- ...
两周复刻DeepSeek-OCR!两人小团队还原低token高压缩核心,换完解码器更实用
量子位· 2025-11-07 05:32
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 两人小团队,仅用两周就复刻了之前被硅谷夸疯的DeepSeek-OCR?? 复刻版名叫 DeepOCR ,还原了原版 低token高压缩 的核心优势,还在关键任务上追上了原版的表现。 完全开源,而且无需依赖大规模的算力集群,在两张H200上就能完成训练。 这样一来,原本要几千个文本tokens才能承载的内容,几百个视觉tokens就够了,压缩比能做到7-20倍,而且 10倍压缩下准确率还能保持 97% 。 也难怪它一开源就火了,还被称为"AI的JPEG时刻"。 DeepSeek-OCR的设计思想是"靠视觉压缩一切",通过 用少量的视觉token来表示原本需要大量文本token的内容 ,以此降低大模型的计算 开销,解决了大模型处理长文本的算力爆炸难题。 两人小团队能在短时间里复刻出核心能力,怎么做到的? 更实用的复刻版 先来简单回顾一下DeepSeek-OCR为啥会大爆。 大模型处理长文本时,算力会跟着序列长度呈二次方增长,几百页的文档就能把显存撑爆。 而DeepSeek-OCR想出了个反常识的解法—— 把文字渲染成图片,用视觉模态当压缩媒介 。 而两人小团队 ...