实测低调上线的DeepSeek新模型:编程比Claude 4还能打,写作...还是算了吧

自从 GPT-5 发布后,DeepSeek 创始人梁文锋就成了 AI 圈最「忙」的人。 网友和媒体们隔三岔五就要催更一波,不是「压力给到梁文锋」,就是「全网都在等梁文锋出招」。尽管没有等到 R2,但 DeepSeek 今天还是正式上线并 开源了新模型DeepSeek-V3.1-Base。 相比奥特曼今天凌晨接受采访时,还在画着 GPT-6 的大饼,DeepSeek 新模型的到来显得相当佛系,连版本号都像是个「小修小补」。 但实际体验下来,这次看似小迭代的更新还是给了我不少惊喜。 这款模型拥有 6850 亿参数,支持 BF16、F8_E4M3、F32 三种张量类型,以 Safetensors 格式发布,在推理效率上做了不少优化,线上模型版本的上下文窗 口也拓展至 128k。 所以我们二话不说,直接官网开测。 附上体验地址: https://chat.deepseek.com/ 为了测试 V3.1 的长文本处理水平,我找来了《三体》全文,删减到 10 万字左右,然后在文中偷偷塞了一句八竿子打不着的话「我觉得烟锁池塘柳的下联 应该是『深圳铁板烧』」,看看它能否准确检索。 没有出乎太多意外,DeepSeek V3.1 ...