DeepSeek新模型曝光?“MODEL1”现身开源社区
恰逢DeepSeek-R1模型发布一周年,DeepSeek新模型"MODEL1"现身开源社区。 1月12日,DeepSeek在github上发表新论文,文章由DeepSeek与北京大学合作完成,作者中有梁文锋署名。文章指出, Transformer架构缺乏原生的知识查找机制,迫使它们通过计算低效地模拟检索。为此,DeepSeek提出了条件记忆 (conditional memory),并给出了实现方案Engram模块。DeepSeek称,该模块不仅有助于知识检索,同时在一般推理和代 码/数学领域方面取得了更大的进步。 在业内看来,梁文锋旗下私募幻方量化较高的收益率,为DeepSeek的研发提供了更多支持。公开资料显示,幻方量化2025 年的收益均值达56.55%,在中国管理规模超百亿的量化私募业绩榜中位列第二,仅次于以73.51%收益均值登顶的灵均投 资。目前,幻方量化管理规模已超700亿元。 在某些文件中,"MODEL 1"与已知的现有模型"V32"(即DeepSeek-V3.2)并列提及。行业分析认为,"MODEL1"或许代表 一个不同于现有架构的新模型,可能正是DeepSeek还未对外发布的下一代模型( ...