Workflow
DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了
机器之心·2025-10-21 03:43

机器之心报道 编辑:泽南、Panda 「我很喜欢新的 DeepSeek-OCR 论文…… 也许更合理的是,LLM 的所有输入都应该是图像。即使碰巧有纯文本输入,你更应该先渲染它, 然后再输入。」 一夜之间,大模型的范式仿佛被 DeepSeek 新推出的模型给打破了。 昨天下午, 全新模型 DeepSeek-OCR 突然开源 。在该模型的处理过程中,1000 个字的文章能被压缩成 100 个视觉 token,十倍的压缩下精度也可以达到 97%,一 块英伟达 A100 每天就可以处理 20 万页的数据。 这种方式或许可以解决大模型领域目前头疼的长上下文效率问题,更重要的是,如果「看」文本而不是「读」文本最终被确定为正确的方向,也意味着大模型的 范式会发生重要的转变。 GitHub 上, DeepSeek-OCR 项目一晚收获了超过 4000 个 Star 。 因为是开源的小模型,DeepSeek-OCR 第一时间经历了整个 AI 社区的检验,很多大佬在看完论文之后纷纷发表了看法,兴奋之情溢于言表。 OpenAI 联合创始成员之一,前特斯拉自动驾驶总监 Andrej Karpathy 表示,它是一个很好的 OCR ...