模型安全性
Search documents
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开
量子位· 2026-01-08 12:08
Jay 发自 凹非寺 量子位 | 公众号 QbitAI 盼星星盼月亮,千呼万唤的DeepSeek-R2没盼到, R1又抱着琵琶出来溜了一圈 。 还记得去年登上《Nature》封面的那篇关于R1的论文吗? DeepSeek又悄悄给它塞了 64页 的技术细节。 是的,你没看错,直接从22页干到86页,简直可以当教科书看了…… 谁能想到,论文发布都快一年过去了,DeepSeek居然还能更这么多东西。 DeepSeek怒加64页猛料 把两份论文对着一看,发现这件事不简单。 新版本论文的信息量很大,不止是补了几块附录,正文也被大幅度翻修,几乎像重写了一篇。 在看新论文前,先简单回溯下去年一月份发的v1版。 这个版本围着DeepSeek-R1-Zero展开,重点是释放信号:纯强化学习这条路,是能走通的。 相比起来,v2明显在具体的实现细节上下了更多笔墨。 就比如R1这部分,DeepSeek这次系统性把R1的完整训练路径展开了。 整个过程分成四步: 第一步,冷启动 。用数千条能体现思考过程的CoT数据,对模型做SFT。 第二步,推理导向RL 。在不破坏对话思考风格的前提下,继续提升模型能力,同时引入语言一致性奖励,解决语种 ...