一年后,DeepSeek-R1的每token成本降到了原来的1/32
编辑 | 杜伟、泽南 几天前,DeepSeek 毫无预兆地更新了 R1 论文,将原有的 22 页增加到了现在的 86 页。 新版本充实了更多细节内容,包括首次公开训练全路径,即从冷启动、训练导向 RL、拒绝采样与再微调到全场景对齐 RL 的四阶段 pipeline,以及「Aha Moment」的数据化验证等等。 | Subjects: | Computation and Language (cs.CL); Artificial Intelligence (cs.Al); Machine Learning (cs.LG | | --- | --- | | Cite as: | arXiv:2501.12948 [cs.CL] | | | (or arXiv:2501.12948v2 [cs.CL] for this version) | | | https://doi.org/10.48550/arXiv.2501.12948 0 | | | Journal reference: Nature volume 645, pages 633-638 (2025) | | Related DOJ: | https:/ ...