Workflow
多分辨率机制
icon
Search documents
深度|DeepSeek-OCR引爆“语言vs像素”之争,Karpathy、马斯克站台“一切终归像素”,视觉派迎来爆发前夜
Sou Hu Cai Jing· 2025-10-21 12:25
技术内核:十倍压缩 + 多分辨率,"读"变"看"的工程路径 DeepSeek-OCR 的设计思路非常鲜明:通过多分辨率的视觉编码机制,实现极高的信息压缩效率。 模型提供了多个分辨率选项:最低的 512×512 图像仅需 64 个 token,而 1024×1024 则对应 256 个 token。对于复杂版面,它会组合多种分辨率——整页用 多个 1024×1024 的块进行全局编码,重点区域再以 640×640 的高分辨率单独处理。 这套路线的底层逻辑是:把文本先渲染成图片,再用视觉编码器把它压成更少的视觉 token。传统做法是"按字/词切片—> 变成一长串文本 token—> 塞给 LLM",而 DeepSeek 的思路是"把一页文字变成若干张多尺度图块—> 视觉编码—> 少量视觉 token"。从工程权衡的角度看,这有三层直接收益: DeepSeek 在工程上还给了多分辨率的"粗到细"路径:整页用较粗分辨率覆盖,重点区域再用更高分辨率补洞,既保全结构又兼顾要点密度。 过去一年,大模型世界像一场"算力奥运会":谁的参数更大、Bench 更高、吞吐更快,就能赢得下一轮融资与流量。 但 DeepSeek-OC ...