Workflow
DeepSeek 偷偷发布了v3.1
小熊跑的快·2025-08-21 10:16

这次发布貌似比较低调,但是发布后,社区反响还是不错,排名前 列,还在持续上升中,我们也聊聊这次的亮点 核心性能突破 超长上下文处理 技术实现: 128K tokens的工程突破与架构优化 DeepSeek V3.1将上下文窗口扩展至128K tokens,实现对上一代版本(64K)的翻倍提升,可处理约10 万-13万汉字(相当于两本200页小说或400页书籍的文本量)。这一突破的核心在于 Transformer架构 的内存管理优化 ,通过改进注意力机制的计算效率与上下文状态追踪能力,解决了前代模型在长文本 处理中常见的 上下文丢失 与 响应碎片化 问题。线上模型版本与开源版本保持一致的上下文能力,确保 企业级用户与开发者可获得同等的长文本处理性能。 场景验证:从长文档分析到复杂任务支持 在企业级应用中, 128K上下文能力显著提升了 法律合同审查 、 学术论文综述 等场景的效率。模型可 一次性输入完整的超长法律文档(如 400页合同)或博士论文(约10万汉字),并保持逻辑连贯性与细 节准确性。实测显示,其在约10万字 文章中 删减文本中成功定位到特定句子,并 能理解文章内容 ,验 证了长文本中的 精准信息检索 ...