[翻译] How LLMs Actually Work

Sat, 06 Jun 2026 21:13:43 +0800

原文：How LLMs Actually Work，作者 0xkato，发布于 2026 年 6 月 1 日。本文为翻译。

这篇文章会带你走一遍 LLM 是如何工作的。现代 LLM 基本上都是通过一层又一层堆叠 transformer block 构建出来的，所以只要理解 transformer 这套机制，就已经走完了大半段路。

我会介绍现代基于 transformer 的 LLM 内部的核心机制，但不会塞进过多繁复的数学细节。别误会，你当然应该学习数学，但这篇文章可以作为一个入门。

大多数现代 LLM 都共享同一套 transformer 家族的骨架。它们之间的差异来自训练数据、规模和配置选择，以及在基础模型之上做的后训练。读完之后，你应该能够阅读很多现代 LLM 论文或 model card，并知道每一节讨论的是架构里的哪一块。

路径如下：

从 tokenization 到 next-token prediction 的 transformer 流水线

Machine Learning on Niebelungen's