Workflow
硬核拆解大模型,从 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架构
机器之心·2025-08-07 09:42

如果从 2019 年的 GPT-2 出发,回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4,不难发现一个有趣的现象: 尽管模 型能力不 断提升,但其整体架构在这七年中 保持了高度一致 。 选自 Ahead of AI 作者: Sebastian Raschka 机器之心编译 自首次提出 GPT 架构以来,转眼已经过去了七年。 当然,细节上仍有不少演进。例如,位置编码从最初的绝对位置(Absolute Positional Encoding)发展为旋转位置编码(RoPE);注意力机制也从标准的多头注意 力(Multi-Head Attention)逐步过渡为更高效的分组查询注意力(Grouped-Query Attention);而激活函数方面,则从 GELU 被更高效的 SwiGLU 所取代。 然而,这些变化中究竟有没有「颠覆性创新」?七年间,大语言模型的架构是否真正迎来了质的飞跃,还是仍在原有框架上不断精雕细琢? 本文博客来自于 Sebastian Raschka,知名 AI 研究者和博主、《Python 机器学习》作者。 博客详细列举了 8 个主流大语言模型,包含 DeepSe ...