DeepSeek 上新
12月1日,DeepSeek微信公众号宣布,今日发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。 DeepSeek-V3.2与其他模型在各类数学、代码与通用领域评测集上的得分(括号内为消耗Tokens总量约数) 图片来源:DeepSeek微信公众号 从数据来看,在高度复杂任务上,Speciale模型大幅优于标准版本,但消耗的Tokens也显著更多,成本更高。DeepSeek表示,目前DeepSeek-V3.2-Speciale 仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化。 在使用上,不同于过往版本在思考模式下无法调用工具的局限,DeepSeek-V3.2是DeepSeek推出的首个将思考融入工具使用的模型,并且同时支持思考模 式与非思考模式的工具调用。公司通过提出一种大规模Agent训练数据合成方法,构造大量难解答、易验证的强化学习任务,提高模型的泛化能力。 公司表示,DeepSeek-V3.2思考模式增加了对Claude Code的支持,但未充分适配Cline、RooCode等使用非标准工具调用的组件,因此建议用户在使用此类 组件时继续 ...