OnlineRL - filings, earnings calls, financial reports, news - Reportify

OnlineRL

Search documents

KIMI K2：最前瞻的研究！OnlineRL新范式，大模型的又一DeekSeek时刻！

2025-07-19 14:02

KIMI K2：最前瞻的研究！OnlineRL 新范式，大模型的又一 DeekSeek 时刻！20250718 摘要 Kimi K2 作为国内首个公开数据显示拥有万亿参数的 MOE 模型，其架构与 Distill V3 相似，但专家拆解更细致，采用 CLIP 优化器缓解梯度输出问题，并实现部分在线强化学习功能，通过融合多场景数据，在奖励模型上优选最佳结果，产生高质量合成数据，推动开放式问题场景发展。 GPT2 引起轰动在于使用工具后能力提升显著（绝对提升 15%，相对提升 80%），以及 Post-training 算力消耗超过 Pre-training，表明对算力规模和 Skill-up 要求提高，促使海外构建更多大节点算力集群。 Kimi KR 模型因范式创新和强大的模型能力在海外引发讨论，即使是 Pre-training 版本，完成强化学习后有望对标甚至超越 GPT-3，并可能超越国内外下一代模型，提升基础软硬件配套，推动短链和长链应用发展。从投资角度看，2025 年下半年进入预期兑现阶段，应关注最快落地的项目和长期增量价值最大的项目。海外数据显示，云计算、基础软硬件配套设施及实施 ...

Seek .(US:SKLTY)