DeepSeek新模型“MODEL1”曝光
第一财经·2026-01-21 08:56

2026.01. 21 本文字数:1454,阅读时长大约2分钟 作者 | 第一财经 刘晓洁 题图 | AI生成 在 DeepSeek-R1 发 布 一 周 年 之 际 , 新 模 型 "MODEL1" 的 项 目 名 在 开 源 社 区 悄 然 出 现 。 近 日 , DeepSeek官方在GitHub更新了一系列FlashMLA代码,项目文件有数十处都提到了此前未公开 的"MODEL1"大模型标识符。 在项目中,"MODEL1"标识符与已知的现有模型 "V32"(即 DeepSeek-V3.2)被并列提及。行业认 为,根据代码上下文,"MODEL1"很可能代表一个不同于现有架构的新模型。但是具体是V4模型还 是推理模型R2行业有不同的看法,也有开发者认为可能是V3系列的终极版。 FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,是DeepSeek 模型实现低成本、高性能的关键技术之一,可以在模型架构层面减少内存占用,最大化地利用GPU 硬件。 根据开发者的分析,"MODEL1"与 "V32"在关键技术上存在区别,主要体现在键值(KV)缓存的布 局、稀疏性处理方式以 ...