Efficient Attention
Search documents
Kimi Linear一作张宇:关于模型训练的一些感想
自动驾驶之心· 2025-11-06 00:04
作者 | yzhangcs@知乎 编辑 | 青稞AI 原文链接:https://www.zhihu.com/question/1967345030881584585/answer/1967730385816385407 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 本文只做学术分享,如有侵权,联系删文 ,欢迎添加小助理微信AIDriver004做进一步咨询 终于忙完了 Kimi Linear 的 Model Card 和 Paper ArXiv 上传,放空了半天。现在稍微分享一下个人感想,顺便做一些澄清。 Paper:https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf代码:https://github.com/Moonshot 模型架构 模型整体架构设计如图所示,延续了 Moonlight 的设计思路,别的回答已经有不少优秀的解读了。这次最大的不同在于我们将MoE的稀疏度设置 得更激进,从8到32。 而 Kimi Linear 的核心设计原则,第一主要采用Linear Attenti ...