DeepSeek、GPT、Qwen，所有大模型架构图都有，Karpathy：宝藏画廊！

机器之心报道最近几年，大模型赛道好不热闹。叫得上名字的几乎数都数不过来：从 GPT、Llama、Gemma、Mistral，到 DeepSeek、Qwen、Kimi、GLM、MiniMax 等等，新模型几乎以周更的速度出现。但问题是，当架构创新越来越多时，理解它们反而变得越来越困难。不同论文里的模型结构图风格各异、模块命名不统一，即便是研究者，也很难快速看清一个模型究竟在哪些地方做出了关键改动。如果把过去几年主流模型的架构放在一起，你会发现一个明显的空白：我们拥有大量模型，却缺少一张清晰的大模型架构图。最近，AI 研究者 Sebastian Raschka 就尝试给了这样一张图，他将过去几年主流大模型的结构重新绘制，并整理成了一个在线图谱「LLM Architecture Gallery」。原文地址：https://sebastianraschka.com/llm-architecture-gallery/ #card -olmo-2-7b 根据 Raschka 介绍，该网站汇集了他此前两篇博客中的内容，这两篇博客分别为《The Big LLM Architecture Comparison》 ...