闭源越跑越快之后,DeepSeek V3.2 如何为开源模型杀出一条新路
深思SenseAI·2025-12-03 09:51

过去一年多里, 大多数权威评测仍然在反复强调同一件事:在最前沿的综合能力上,闭源模型的曲线更陡,开源想在所有维度上追平变得越来越难。 DeepSeek 在技术报告中也承认:开源社区在进步,但 Anthropic 、 Gemini 、 OpenAI 这些闭源模型的性能曲线更陡,差距其实在拉大。在复杂任务上,闭源 系统展现出越来越明显 的优势。 目前开源模型有三个关键问题 : 1. 首先,在架构层面,当前主流仍高度依赖 Vanilla Attention 机制,这在 长序列场景 下会严重限制计算效率。这种低效对模型的 大规模部署 以及有效的后训 练都构成了实质性障碍。 2. 其次,在资源投入上,开源模型在 后训练 阶段普遍面临 算力投入不足 的问题,从而限制了其在高难度任务上的表现。 3. 最后,在 AI Agent 场景中,相比于闭源系统,开源模型在 泛化能力 与 指令跟随能力 方面存在显著滞后,这削弱了其在真实部署中的有效性。 12月1 号, DeepSeek 发布了两款新模型: DeepSeek V3.2 和 DeepSeek V3.2 Speciale ,针对这三个问题, 提出了三个改进 : 1. 引入了 ...