不用等R2了！第三方给新版DeepSeek V3添加深度思考，推理101秒破解7米甘蔗过2米门

1.2T万亿参数，5.2PB训练数据，高效利用华为芯片……只能说如果有一半是真的都很牛了。 HuggingFace创始人此时推荐"以不变应万变"，打开官方认证账号的更新提醒，就能第一时间获取通知。梦晨发自凹非寺量子位 | 公众号 QbitAI DeepSeek即将发布R2？？坊间传闻越来越多了，且难辨真假。抛开具体泄露数据是否准确，大家似乎有一个共识：如果真的有R2，它的基础模型会是新版DeepSeek V3-0324 。之所以有很多人相信R2会在4月底发布，有一部分原因也是出于R1与V3之间相隔了一个月左右。现在，等不及DeepSeek官方，开源社区已经开始自己动手给V3-0324加入深度思考了。新模型 DeepSeek-R1T-Chimera ，能力与原版R1相当，但速度更快，输出token减少40%，也是基于MIT协议开放权重。相当于拥有接近R1的能力和接近V3-0324的速度，结合了两者的优点。而且做到这一点，不是靠微调或蒸馏，而是DeepSeek V3-0324和R1两个模型融合而成。 R1+V3融合模型新模型R1T-Chimera并非DeepSeek官方出品，而是来 ...