Workflow
用图像代替文本作为 LLM 输入
icon
Search documents
DeepSeek OCR:醉翁之意不在酒
Founder Park· 2025-10-21 07:46
以下文章来源于冷技术热思考 ,作者风轻扬 冷技术热思考 . 浙江大学CS博士 GenAI创业中 前网易集团副总裁,杭州研究院执行院长 极简主义,吉他,摇滚乐,徒 步 理想是目标函数,现实是约束条件 DeepSeek 昨天开源的 OCR 新模型在 AI 圈内小火了一把。 项目地址: https://github.com/deepseek-ai/DeepSeek-OCR 简单来说,DeepSeek-OCR 模型是一个专门能「读懂」图片里文字的 AI 模型。但厉害的地方不是简单 的「识字」,是采用了一种非常新颖的思路: 把文字当成图片来处理和压缩。 你可以把它想象成一个超级高效的「视觉压缩器」。传统的 AI 模型是直接「读」文本,但 DeepSeek- OCR 是先「看」文本的图像,然后把一页文档的图片信息高度压缩成很少的 visual tokens。 DeepSeek-OCR 的能力强在,能把一篇 1000 字的文章,压缩成 100 个视觉 token。在十倍的压缩下,识 别准确率可以达到 96.5%。 Karpathy 在 X 上表达了对 DeepSeek-OCR 研究工作的肯定 ,同时思考了对于 LLM 信息 ...