Workflow
DeepSeek上线两天后再回看:一次“小更新”,一场架构“豪赌”
Seek .Seek .(US:SKLTY) 3 6 Ke·2025-08-21 23:48

8月19日晚间,DeepSeek官方悄然上线了全新的V3.1版本。 官方公告强调了上下文长度拓展至128k,但随着社区的深入挖掘和实测,这次"小更新"之下其实有着更多模型架构的变革和模型重点能力的微调,在编程 能力上的提升也可圈可点,成本优势重回显著。 然而,模型融合的技术路线也引发激烈争论,部分用户反馈旧版模型的"顽疾"复现,对这次更新的评价呈现出两极分化的态势。 发布两天后,DeepSeek官方在公众号上发布了相关消息。 此时,正适合我们回看V3.1,更细致地拆解这次"小更新"。 1 架构之变:V3.1吞掉R1,减轻部署复杂度 尽管DeepSeek官方在更新通知中将"上下文长度拓展至128k"作为核心亮点,但此前的V3版本早已支持128K上下文,只是官方API接口此前仅开放至64K。 因此,这次更新的真正核心并非上下文长度,而是模型底层的架构演进。 根据官方最新发布的公众号内容,确认了V3.1为混合推理架构,即使用一个模型同时支持思考模式与非思考模式。 目前在DeepSeek的官方网页和APP上,即使用户开启"深度思考"模式,模型的标识也已从过去的"R1"变为了统一的"V3"。 除了架构改变外,V3.1被 ...