从Token到Transformer：LLM预测下一个词的内部流程

首页/AI教程/文章详情

从Token到Transformer：LLM预测下一个词的内部流程

时间：2026-07-03 15:44

LLM将输入文本切分为Token并映射为ID，通过嵌入矩阵转换为语义向量，加入位置编码后，利用自注意力机制捕获上下文关系，最终根据概率分布预测下一个Token，并自回归生成完整回答。

LLM如何预测下一个词？从Token到Transformer的完整内部流程

平时与大模型对话时，我们常感觉它似乎真正“理解”了我们的意图。例如输入“我今天去了一趟……”——模型可能接着生成“北京”或“上海”？它究竟如何判断该接什么？

LLM 是怎么预测下一个词的？从 Token 到 Transformer 的内部流程

本质上，LLM并非像人类那样先理解整句话再思考答案。其最核心的任务其实很简单：根据已有词语，预测下一个最可能出现的词。

本文将从Token、Embedding、位置编码和Self-Attention等关键环节出发，深入剖析LLM在接收到一段文本后，内部究竟经历了哪些处理流程。

1. Token：大模型处理文本的最小单元

用户输入的prompt本质上是一段自然语言，例如“今天天气怎么样”。但模型无法直接处理人类语言，它需要先将文字切分成更小的单位——这一过程称为Tokenization。

切分出的单位叫Token，中文可理解为“词元”。大模型处理文本时，最小单元不一定是完整的“词”，也可能是子词、字符、标点符号或常见组合片段。使用“词元”这一术语更为准确，因为它指的是模型实际用于计算和计费的最小单位，而非语言学意义上的完整词语。

举例来说：英文单词“unbelievable”，模型通常不会将其作为一个整词处理，而可能拆分为“un”、“believe”、“able”几个部分。中文也是如此，“人工智能”可能被拆成“人工”和“智能”。如果模型只识别完整单词，词表会膨胀到几十万甚至几百万，效率极低。因此，Tokenization的作用就是：将文本切分成模型能够高效处理的碎片。

2. Token ID：将文字转换为数字

Token切分完成后，仍无法直接进入模型计算。模型会为每个token分配一个编号——Token ID。例如，“你”的ID可能是57668，“好”是22334。这个数字本身不具备语义含义，无法通过加减乘除理解“你”的意思。它更像字典中的页码：根据ID查找该token对应的信息。用户看到的是文字，但模型内部处理的是一串数字编号。

3. Embedding：将Token ID转化为语义向量

Token ID虽然便于索引，但本身并无意义。因此，模型需要将Token ID转换成一个真正携带语义信息的向量，这一步骤称为Embedding。

简单理解：模型内部有一个巨大的向量查找表，名为Embedding Matrix（嵌入矩阵）。当模型看到Token ID 57668（即“你”）时，它会前往该矩阵的第57668个位置，取出对应的向量。这个向量维度可能是1024维、4096维甚至更高。此时，“你”不再仅仅是一个编号，而变成了一个蕴含语义信息的高维向量。

4. 向量为何能表达语义？

Embedding的神奇之处在于：语义相近的词，其向量也相近。例如，“你”“我”“他”在语义空间中可能彼此靠近；而“苹果”“香蕉”“水果”与“你”的距离则更远。模型在训练过程中会逐步构建一个语义空间，每个词元都有自己的坐标位置。语义越接近，坐标越靠近；语义差异越大，距离越远。

经典案例是“国王 - 男人 + 女人 ≈ 女王”——这说明向量不仅能表示语义，还能在一定程度上反映语义之间的关系。也可以理解为：模型为每个词元赋予了一组坐标，语义相似的词坐标也彼此接近。

5. 位置编码：让模型了解词语顺序

仅有语义信息还不够。相同的词语，顺序不同，含义可能截然相反。例如“我咬狗”和“狗咬我”——两句话所用字词几乎相同，但意思完全对立。Embedding本身只表示“这个token是什么”，却无法天然知晓它在句子中的第几个位置。因此，模型需要引入位置编码（Position Encoding）。

位置编码的核心作用：为每个token附加位置信息，使模型能够感知词语的前后顺序。最终，每个token输入模型时，会同时携带两类信息：语义信息（来自Embedding）和位置信息（来自位置编码）。模型看到的并非单纯的“我”“狗”“咬”，而是“位置1的‘我’”“位置2的‘狗’”“位置3的‘咬’”——这样模型才能理解上下文顺序。

6. Self-Attention：模型如何理解上下文？

仅仅知道单个词的意思还不够。例如句子：“The animal didn't cross the street because it was too tired.” 这里的it指的是谁？是animal还是street？人类能立刻判断it更可能指向animal，因为“太累了”通常描述动物而非街道。

模型要解决这类上下文关联，需依赖Transformer的核心机制：Self-Attention（自注意力）。其作用可简单概括为：让每个词元观察句子中的其他词元，判断哪些词与自身更相关，然后依据这些相关性调整自身的表示。

7. Q、K、V：自注意力中的三个角色

在Self-Attention中，每个token的Embedding会被转换成三种向量：Query（查询向量）、Key（键向量）、Value（值向量）。可以这样理解：

Q：我在寻找什么？

Query是当前token发出的查询。例如it这个词，它会询问：“在句子中，谁与我关系最密切？”

K：我如何被匹配？

Key好比每个token的名片。句子中的animal、street、tired都会提供自己的Key，告知其他token：“我是什么，你可以如何匹配我。”

V：我实际贡献什么信息？

Value是真正被传递出去的信息内容。如果it最终认为animal更相关，那么animal对应的Value就会更多地影响it的表示。可以简单记为：Q负责提问，K负责应答，V负责输出内容。

8. Attention分数：模型如何判断重要性？

当it发出Query后，它会拿自己的Query向量与句子中每个token的Key向量进行点积计算。点积结果越大，说明两个token越相关。例如it的Query与animal的Key点积分值高，与street的Key点积分值低，那么模型就会更关注animal。最后，模型根据这些注意力分数，对不同token的Value进行加权汇总。Self-Attention并非只关注一个词，而是让每个词都能依据上下文重新调整自身的语义。因此，it原本只是一个代词，但经过上下文计算后，其表示会更偏向animal。

9. LLM的核心：预测下一个Token

经过Tokenization、Embedding、位置编码、Self-Attention等一系列处理后，模型最终要做的仍然是：预测下一个token是什么。例如输入“中国的首都是”，模型可能会输出这样的概率分布：北京0.85，南京0.05，上海0.03……然后模型根据概率选择一个token输出。如果选择了“北京”，下一步它会将前面内容更新为“中国的首都是北京”，然后继续预测下一个token。这个过程不断重复：根据已有序列预测下一个词，将新词加入序列，再继续预测下一个。这就是自回归生成。简单概括就是：一步接一步，每次只猜一个token。

10. 总结

LLM表面上看起来像是在理解语言，但从底层流程来看，它大致经历了以下步骤：

用户输入自然语言prompt
Tokenizer将文本切分为token
每个token转换为Token ID
Token ID通过Embedding Matrix查表，变为语义向量
加入位置编码，使模型知悉词语顺序
通过Self-Attention理解上下文关系
输出下一个token的概率分布
选择token后继续生成

因此，可以将LLM的工作理解为一句话：一个庞大的概率预测机器。Token是模型处理语言的货币，Embedding将货币转化为语义坐标，Self-Attention则让每个词元在上下文中重新理解自身。最终，模型通过不断预测下一个token，生成了我们所看到的完整回答。

来源：https://juejin.cn/post/7657456528342253620

其他

上一篇企业AI连接器：工具层而非接口层 下一篇凯哥分析3万份简历打造高考志愿智能体

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。