Workflow
2025年DeepSeek-R1&Kimi 1.5及类强推理模型开发解读报告
Peking University·2025-03-04 01:35

DeepSeek-R1 \ Kimi 1.5 及 类强推理模型开发解读 陈博远 北京大学2022级"通班" 主要研究方向:大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 北大对齐小组 Outline 2 ➢ 技术对比探讨 ➢ DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ DeepSeek-R1 Zero 及 R1 技术剖析 ➢ Pipeline 总览 \ DeepSeek-V3 Base \ DeepSeek-R1 Zero 及 R1 细节分析 ➢ RL 算法的创新:GRPO及其技术细节 ➢ DeepSeek-R1 背后的Insights & Takeaways:RL加持下的长度泛化 \ 推理范式的涌现 ➢ DeepSeek-R1 社会及经济效益 ➢ STaR-based Methods vs. RL-based Methods 强推理路径对比 (DS-R1 \ Kimi-1.5 \ o-series) ➢ 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及Takeaways ➢ PRM & MCTS ...