DeepSeek新模型曝光
财联社·2026-01-21 06:34

专注科创板和科技创新,上海报业集团主管主办,界面财联社出品。 2025年1月,DeepSeek-R1上线,此时正值R1模型发布一周年之际,DeepSeek新模型"MODEL1"曝光。 北京时间1月21日,DeepSeek官方GitHub仓库更新了一系列FlashMLA代码,借助AI对全部总代码文件数:114个(包括.py, .md, .txt, .sh, .cpp, .cu, .h文件)进行分析,发现了一个此前未公开的模型架构标识"MODEL1",共被提及31次。 FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门加速大模型"推理生成"这一环节。该算法的实现基 础MLA(多层注意力机制),是DeepSeek模型(如V2、V3)实现低成本、高性能的关键技术之一,用于在模型架构层面减少内存占用, 最大化地利用GPU硬件。 MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2。据推测, MODEL1很可能是一个高效推理 模型,相比V3.2,内存占用更低,适合边缘设备或成本敏感场景。 它也可能是一个长序列专家 ...