Workflow
OnlineRL
icon
Search documents
KIMI K2:最前瞻的研究!OnlineRL新范式,大模型的又一DeekSeek时刻!
2025-07-19 14:02
KIMI K2:最前瞻的研究!OnlineRL 新范式,大模型的 又一 DeekSeek 时刻!20250718 摘要 Kimi K2 作为国内首个公开数据显示拥有万亿参数的 MOE 模型,其架 构与 Distill V3 相似,但专家拆解更细致,采用 CLIP 优化器缓解梯度输 出问题,并实现部分在线强化学习功能,通过融合多场景数据,在奖励 模型上优选最佳结果,产生高质量合成数据,推动开放式问题场景发展。 GPT2 引起轰动在于使用工具后能力提升显著(绝对提升 15%,相对提 升 80%),以及 Post-training 算力消耗超过 Pre-training,表明对算 力规模和 Skill-up 要求提高,促使海外构建更多大节点算力集群。 Kimi KR 模型因范式创新和强大的模型能力在海外引发讨论,即使是 Pre-training 版本,完成强化学习后有望对标甚至超越 GPT-3,并可能 超越国内外下一代模型,提升基础软硬件配套,推动短链和长链应用发 展。 从投资角度看,2025 年下半年进入预期兑现阶段,应关注最快落地的 项目和长期增量价值最大的项目。海外数据显示,云计算、基础软硬件 配套设施及实施 ...