Workflow
大语言模型长上下文问题
icon
Search documents
重磅,DeepSeek再开源:视觉即压缩,100个token干翻7000个
3 6 Ke· 2025-10-21 01:35
一图胜千言!DeepSeek-OCR模型大胆探索视觉-文本压缩边界。通过少量视觉token解码出10倍以上的文本信息,这款端到端VLM架构不仅在 OmniDocBench基准上碾压GOT-OCR2.0,还为LLM的长上下文问题提供高效解决方案。 DeepSeek再发新模型! Github上,DeepSeek新建了DeepSeek-OCR仓库,目的是探索视觉-文本压缩的边界。 常言道:一图胜万言。对LLM也是如此! 在理论上,DeepSeek-OCR模型初步验证了「上下文光学压缩」的可行性—— 从少量视觉token中,模型能够有效解码出超过其数量10倍的文本token。 也就是说,包含文档文本的单张图像,能以远少于等效文本的token量来表征丰富信息。 这表明通过视觉token进行光学压缩可以实现更高的压缩比。 作为连接视觉与语言的中间模态,OCR任务是视觉-文本压缩范式理想的试验场—— 它在视觉与文本表征之间建立了天然的压缩-解压缩映射关系,同时提供可量化的评估指标。 在OCR任务上,DeepSeek-OCR有较高实用价值:在OmniDocBench基准测试中,仅用100个视觉token即超越GOT-OCR2 ...