DeepSeek、GPT、Qwen,所有大模型架构图都有,Karpathy:宝藏画廊!
机器之心·2026-03-16 03:53
机器之心报道 最近几年,大模型赛道好不热闹。 叫得上名字的几乎数都数不过来:从 GPT、Llama、Gemma、Mistral,到 DeepSeek、Qwen、Kimi、GLM、MiniMax 等等,新模型几乎以周更的速度出现。 但问题是,当架构创新越来越多时,理解它们反而变得越来越困难。不同论文里的模型结构图风格各异、模块命名不统一,即便是研究者,也很难快速看清一个 模型究竟在哪些地方做出了关键改动。 如果把过去几年主流模型的架构放在一起,你会发现一个明显的空白:我们拥有大量模型,却缺少一张清晰的大模型架构图。 最近,AI 研究者 Sebastian Raschka 就尝试给了这样一张图,他将过去几年主流大模型的结构重新绘制,并整理成了一个在线图谱 「LLM Architecture Gallery」。 原文地址:https://sebastianraschka.com/llm-architecture-gallery/ #card -olmo-2-7b 根据 Raschka 介绍,该网站汇集了他此前两篇博客中的内容,这两篇博客分别为《The Big LLM Architecture Comparison》 ...