大模型入门必备知识从Token到Agent系统搞懂AI底层逻辑上篇

时间：2026-05-29 06:36

一、什么是LLM（全称：Large Language Model）市面上几乎所有的大模型，底层引擎都基于Transformer这套架构（如下图所示）。乍一听可能有点抽象，但你可以把它理解成一个超级复杂的“概率猜词机”——它的核心本事，就是根据你给的输入，猜下一个最可能出现的词。大模型工作原理 1

一、什么是LLM（全称：Large Language Model）

市面上几乎所有的大模型，底层引擎都基于Transformer这套架构（如下图所示）。乍一听可能有点抽象，但你可以把它理解成一个超级复杂的“概率猜词机”——它的核心本事，就是根据你给的输入，猜下一个最可能出现的词。

大模型工作原理

1. 文字接龙本质

说白了，大模型本质上就是一场高级的文字接龙游戏。你问它一句“今天天气怎么样”，它收到这个问题后，内部就开始运算：预测下一个概率最高的词是什么。比如它先算出“非常”，就把“非常”吐出来；然后把这个“非常”再塞回原来的输入里，继续预测下一个字，这次可能是“得”；再把“得”加回去，猜下一个，比如“好”；当它觉得话说完了，就会输出一个结束符。于是你看到的就是“非常得好”。这就是大模型最底层的生成逻辑——一个词一个词地往外蹦，直到它觉得够了为止。

2. 中间人 Tokenizer 以及 Token 是什么

为什么要有 Tokenizer？

大模型本质上是一堆数学函数和矩阵运算，它只认数字，不认文字、标点这些人类符号。如果你直接把一句话扔给它，它根本读不懂。Tokenizer 就像大模型和人类之间的翻译官——它负责把人类语言编码成模型能运算的数字序列，再把模型输出的数字解码回我们能读的文字。没有 Tokenizer，大模型就是个文盲。

Token 是什么

Token 是大模型处理文本的最小基本单元。它跟单词不是一一对应的，通常来说，1 个 Token 大约相当于 0.75 个英文单词，或者 1.5 个汉字。它可以是：

完整单词（比如 ChatGPT）
子词（比如 program 被切成 program + mer）
单个字符（比如 a、中）
特殊符号（比如 <|endoftext|>、[CLS]）

Tokenizer 如何工作

编码阶段：先把文本做预格式化（统一大小写、插入特殊标记等），然后拆分成 Token 序列，最后查词汇表给每个 Token 分配一个唯一的数字编号。

解码阶段：模型输出一串 Token ID，Tokenizer 反向查表，把这些 ID 拼回自然语言文本，返回给用户。

搞懂了 Tokenizer 和 Token 之后，你就能明白一件事：主流大模型 API 是按 Token 收费的。通过优化你输入的内容和 Tokenizer 的解析方式，完全可以省下不少费用。

二、什么是上下文（Context）

平时用大模型时，你会发现它好像能记住之前说过的话。但仔细想想，大模型本质上就是一个函数——你给它输入，它给你输出，它并没有真实的人那样的记忆。那么它到底是怎么“记住”前文的呢？

1. Context

答案其实很简单：每次你向大模型发送消息时，它不会只发送当前这个问题，而是会把之前整段对话的历史找出来，一起打包发过去。模型每次都能看到完整的对话内容，自然就知道之前发生了什么。这个“打包在一起的所有消息”就叫 Context。用户问题、对话历史、模型正在输出的每个 Token、工具列表、System Prompt 等等，全都算在 Context 里。所以你可以简单理解：Context 就是大模型每次处理任务时所接收到的消息总和，某种程度上也可以把它看作大模型的临时记忆体。