Workflow
DeepSeek MODEL1
icon
Search documents
DeepSeek新模型真的要来了?“MODEL1”曝光
Di Yi Cai Jing Zi Xun· 2026-01-21 07:00
在DeepSeek-R1发布一周年之际,新模型"MODEL1"的项目名在开源社区悄然出现。近日,DeepSeek官 方在GitHub更新了一系列FlashMLA代码,项目文件有数十处都提到了此前未公开的"MODEL1"大模型 标识符。 | a deepseek-ai / FlashMLA | | | | | | | O N | | --- | --- | --- | --- | --- | --- | --- | --- | | <> Code G Issues 66 | I'l Pull requests | 26 | Actions H Projects | Security | ~ Insights | | | | जा Files | | | FlashMLA / csrc / sm90 / decode / sparse_fp8 / instantiations | | | P | | | nieun & | P Q | 1 | interestingLSY Multiple updates and refactorings (#150) | | 1 | | | | Q Go to file | | ...
DeepSeek新模型曝光!AI主线强势回归!澜起科技领涨超10%,科创人工智能ETF汇添富(589560)涨超3%,AI应用成开年主线,后续催化怎么看?
Sou Hu Cai Jing· 2026-01-21 06:54
1月21日,AI主线强势回归,截至14:20,科创人工智能ETF汇添富(589560)放量上涨3.00%, 反包前两日跌幅! | 序号 | 代码 | 名称 | 申万一级行业 | 涨跌幅 | 估買板車 ▼ | | --- | --- | --- | --- | --- | --- | | 1 | 688521 | 芯原股份 | 电子 | 4.60% | 11.11% | | 2 | 688008 | 澜起科技 | 电子 | 10.92% | 9.99% | | 3 | 688111 | 金山办公 | 计算机 | -0.39% | 9.43% | | 4 | ୧୫୫25୧ | 寒武纪-U | 电子 | 1.11% | 8.34% | | ਦੇ | 688169 | 石头科技 | 家用电器 | 0.41% | 5.12% | | 6 | 688099 | 脂膏胺役 | 曲子 | 1.65% | 4.99% | | 7 | 688568 | 中科营图 | 计算机 | -1.78% | 4.90% | | 8 | ୧୫8382 | 复旦微电 | 电子 | 1.98% | 4.89% | | 9 | 688608 | 恒 ...
DeepSeek新模型曝光
财联社· 2026-01-21 06:34
专注科创板和科技创新,上海报业集团主管主办,界面财联社出品。 2025年1月,DeepSeek-R1上线,此时正值R1模型发布一周年之际,DeepSeek新模型"MODEL1"曝光。 北京时间1月21日,DeepSeek官方GitHub仓库更新了一系列FlashMLA代码,借助AI对全部总代码文件数:114个(包括.py, .md, .txt, .sh, .cpp, .cu, .h文件)进行分析,发现了一个此前未公开的模型架构标识"MODEL1",共被提及31次。 FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门加速大模型"推理生成"这一环节。该算法的实现基 础MLA(多层注意力机制),是DeepSeek模型(如V2、V3)实现低成本、高性能的关键技术之一,用于在模型架构层面减少内存占用, 最大化地利用GPU硬件。 MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2。据推测, MODEL1很可能是一个高效推理 模型,相比V3.2,内存占用更低,适合边缘设备或成本敏感场景。 它也可能是一个长序列专家 ...
炸锅了!DeepSeek MODEL1 引发全网大猜测,R2 or V4?
程序员的那些事· 2026-01-21 04:21
就在 DeepSeek-R1 发布一周年的节骨眼上,国产大模型圈突然炸了! 1 月 21 日凌晨,有开发者发现 DeepSeek 官方 GitHub 仓库更新代码时,意外曝光了一个名为「MODEL1」的全新模型。 (参考:微博、机器之心等,本文由 AI 优化) 大家觉得 MODEL1 到底是谁?是迟到的 R2 还是全新的 V4? 欢迎在评论区留言讨论,有任何疑问都可以 @元宝 来问,咱们一起蹲官方后续! | - For sparse fp8 decoding kernel on F3, k cache.stride(0) must be a | 78 + | | --- | --- | | multiple of 656B (for V32) or 576B (for MODEL1). Padding is needed sometimes. | IMMILIAL TO BREAT THE THE WE WITH THE CHILIT WE CHILITER PHONE COLLECT PROPERTY PROPERTY | 从泄露的细节来看,MODEL1 藏了不少黑科技:优化了 KV 缓存布局、支持 FP8 ...