游乐游手机版
首页/AI教程/文章详情

从Token到Transformer:LLM预测下一个词的内部流程

时间:2026-07-03 15:44
LLM将输入文本切分为Token并映射为ID,通过嵌入矩阵转换为语义向量,加入位置编码后,利用自注意力机制捕获上下文关系,最终根据概率分布预测下一个Token,并自回归生成完整回答。

LLM如何预测下一个词?从Token到Transformer的完整内部流程

平时与大模型对话时,我们常感觉它似乎真正“理解”了我们的意图。例如输入“我今天去了一趟……”——模型可能接着生成“北京”或“上海”?它究竟如何判断该接什么?

LLM 是怎么预测下一个词的?从 Token 到 Transformer 的内部流程

本质上,LLM并非像人类那样先理解整句话再思考答案。其最核心的任务其实很简单:根据已有词语,预测下一个最可能出现的词。

本文将从Token、Embedding、位置编码和Self-Attention等关键环节出发,深入剖析LLM在接收到一段文本后,内部究竟经历了哪些处理流程。

1. Token:大模型处理文本的最小单元

用户输入的prompt本质上是一段自然语言,例如“今天天气怎么样”。但模型无法直接处理人类语言,它需要先将文字切分成更小的单位——这一过程称为Tokenization。

切分出的单位叫Token,中文可理解为“词元”。大模型处理文本时,最小单元不一定是完整的“词”,也可能是子词、字符、标点符号或常见组合片段。使用“词元”这一术语更为准确,因为它指的是模型实际用于计算和计费的最小单位,而非语言学意义上的完整词语。

举例来说:英文单词“unbelievable”,模型通常不会将其作为一个整词处理,而可能拆分为“un”、“believe”、“able”几个部分。中文也是如此,“人工智能”可能被拆成“人工”和“智能”。如果模型只识别完整单词,词表会膨胀到几十万甚至几百万,效率极低。因此,Tokenization的作用就是:将文本切分成模型能够高效处理的碎片。

2. Token ID:将文字转换为数字

Token切分完成后,仍无法直接进入模型计算。模型会为每个token分配一个编号——Token ID。例如,“你”的ID可能是57668,“好”是22334。这个数字本身不具备语义含义,无法通过加减乘除理解“你”的意思。它更像字典中的页码:根据ID查找该token对应的信息。用户看到的是文字,但模型内部处理的是一串数字编号。

3. Embedding:将Token ID转化为语义向量

Token ID虽然便于索引,但本身并无意义。因此,模型需要将Token ID转换成一个真正携带语义信息的向量,这一步骤称为Embedding。

简单理解:模型内部有一个巨大的向量查找表,名为Embedding Matrix(嵌入矩阵)。当模型看到Token ID 57668(即“你”)时,它会前往该矩阵的第57668个位置,取出对应的向量。这个向量维度可能是1024维、4096维甚至更高。此时,“你”不再仅仅是一个编号,而变成了一个蕴含语义信息的高维向量。

4. 向量为何能表达语义?

Embedding的神奇之处在于:语义相近的词,其向量也相近。例如,“你”“我”“他”在语义空间中可能彼此靠近;而“苹果”“香蕉”“水果”与“你”的距离则更远。模型在训练过程中会逐步构建一个语义空间,每个词元都有自己的坐标位置。语义越接近,坐标越靠近;语义差异越大,距离越远。

经典案例是“国王 - 男人 + 女人 ≈ 女王”——这说明向量不仅能表示语义,还能在一定程度上反映语义之间的关系。也可以理解为:模型为每个词元赋予了一组坐标,语义相似的词坐标也彼此接近。

5. 位置编码:让模型了解词语顺序

仅有语义信息还不够。相同的词语,顺序不同,含义可能截然相反。例如“我咬狗”和“狗咬我”——两句话所用字词几乎相同,但意思完全对立。Embedding本身只表示“这个token是什么”,却无法天然知晓它在句子中的第几个位置。因此,模型需要引入位置编码(Position Encoding)。

位置编码的核心作用:为每个token附加位置信息,使模型能够感知词语的前后顺序。最终,每个token输入模型时,会同时携带两类信息:语义信息(来自Embedding)和位置信息(来自位置编码)。模型看到的并非单纯的“我”“狗”“咬”,而是“位置1的‘我’”“位置2的‘狗’”“位置3的‘咬’”——这样模型才能理解上下文顺序。

6. Self-Attention:模型如何理解上下文?

仅仅知道单个词的意思还不够。例如句子:“The animal didn't cross the street because it was too tired.” 这里的it指的是谁?是animal还是street?人类能立刻判断it更可能指向animal,因为“太累了”通常描述动物而非街道。

模型要解决这类上下文关联,需依赖Transformer的核心机制:Self-Attention(自注意力)。其作用可简单概括为:让每个词元观察句子中的其他词元,判断哪些词与自身更相关,然后依据这些相关性调整自身的表示。

7. Q、K、V:自注意力中的三个角色

在Self-Attention中,每个token的Embedding会被转换成三种向量:Query(查询向量)、Key(键向量)、Value(值向量)。可以这样理解:

Q:我在寻找什么?

Query是当前token发出的查询。例如it这个词,它会询问:“在句子中,谁与我关系最密切?”

K:我如何被匹配?

Key好比每个token的名片。句子中的animal、street、tired都会提供自己的Key,告知其他token:“我是什么,你可以如何匹配我。”

V:我实际贡献什么信息?

Value是真正被传递出去的信息内容。如果it最终认为animal更相关,那么animal对应的Value就会更多地影响it的表示。可以简单记为:Q负责提问,K负责应答,V负责输出内容。

8. Attention分数:模型如何判断重要性?

当it发出Query后,它会拿自己的Query向量与句子中每个token的Key向量进行点积计算。点积结果越大,说明两个token越相关。例如it的Query与animal的Key点积分值高,与street的Key点积分值低,那么模型就会更关注animal。最后,模型根据这些注意力分数,对不同token的Value进行加权汇总。Self-Attention并非只关注一个词,而是让每个词都能依据上下文重新调整自身的语义。因此,it原本只是一个代词,但经过上下文计算后,其表示会更偏向animal。

9. LLM的核心:预测下一个Token

经过Tokenization、Embedding、位置编码、Self-Attention等一系列处理后,模型最终要做的仍然是:预测下一个token是什么。例如输入“中国的首都是”,模型可能会输出这样的概率分布:北京0.85,南京0.05,上海0.03……然后模型根据概率选择一个token输出。如果选择了“北京”,下一步它会将前面内容更新为“中国的首都是北京”,然后继续预测下一个token。这个过程不断重复:根据已有序列预测下一个词,将新词加入序列,再继续预测下一个。这就是自回归生成。简单概括就是:一步接一步,每次只猜一个token。

10. 总结

LLM表面上看起来像是在理解语言,但从底层流程来看,它大致经历了以下步骤:

  1. 用户输入自然语言prompt
  2. Tokenizer将文本切分为token
  3. 每个token转换为Token ID
  4. Token ID通过Embedding Matrix查表,变为语义向量
  5. 加入位置编码,使模型知悉词语顺序
  6. 通过Self-Attention理解上下文关系
  7. 输出下一个token的概率分布
  8. 选择token后继续生成

因此,可以将LLM的工作理解为一句话:一个庞大的概率预测机器。Token是模型处理语言的货币,Embedding将货币转化为语义坐标,Self-Attention则让每个词元在上下文中重新理解自身。最终,模型通过不断预测下一个token,生成了我们所看到的完整回答。

来源:https://juejin.cn/post/7657456528342253620
上一篇企业AI连接器:工具层而非接口层 下一篇凯哥分析3万份简历打造高考志愿智能体
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
批处理BAT入门教程第一篇
AI教程 · 2026-07-03

批处理BAT入门教程第一篇

提供13个批处理实战技巧,覆盖全盘查找并删除文件夹或文件、拷贝移动文件、创建畸形文件夹及设置隐藏属性等场景,可一键完成系统维护与文件管理工作,极大提升自动化操作效率和便捷性。

从零开始批处理命令For循环详解与实战案例
AI教程 · 2026-07-03

从零开始批处理命令For循环详解与实战案例

批处理For命令支持 d、 l、 r、 f四个参数。 d仅列出当前目录下的目录名; r递归搜索指定路径及其子目录中的文件; l生成数值序列; f可解析文件、字符串或命令输出,通过delims、tokens、skip、eol等选项灵活处理内容。

批评你的人是你生命中的贵人
AI教程 · 2026-07-03

批评你的人是你生命中的贵人

批评你的人往往最值得珍惜,因为他们关注你、助你成长。面对批评应包容反思,用行动改进而非辩解。接受批评是自我完善的过程,能让人少走弯路,避免重复犯错。这样的人正是生命中的贵人,值得感恩与珍惜。

测试人员角色定位与职责详解
AI教程 · 2026-07-03

测试人员角色定位与职责详解

测试人员角色经历了从找问题、保证质量到分析风险的转变,最终核心职责是提供关键信息,协助团队创造优秀产品。这包括识别问题、评估风险及帮助团队了解项目状态,而非单纯把关或追求完美。

经营成功测试生涯的实用方法与策略
AI教程 · 2026-07-03

经营成功测试生涯的实用方法与策略

一、测试生涯的起点 1989年,我在田纳西大学攻读研究生时,意外地从软件开发人员转行成为一名软件测试工程师。这并非我主动选择,说起来还有些戏剧性——某个早晨,教授质问我为何缺席那么多开发会议,我解释说这些会议总是安排在周末早上,对我这个第一次离家、刚入学的学生来说实在不便。结果呢?等待我的不是解聘通