游乐游手机版
首页/AI教程/文章详情

外行也能懂的Token在Transformer中工作流程

时间:2026-06-24 11:46
输入语句经分词、嵌入与位置编码后,每个token获得含语义和位置的高维向量。多层Transformer中,多头注意力机制捕获词间关系,前馈网络进行特征加工,残差连接与层归一化保障深层训练。最终线性投影与softmax输出下一词的概率分布。

Transformer模型流程图Transformer模型流程图

想象一下,你向模型输入“the cat sat on the mat”这句话,希望它能准确预测下一个单词。这个看似简单的动作,实际上完整呈现了Transformer模型内部各组件精密协作的全过程。每个词(即token)在这趟“旅程”中,都会依次经过多个设计巧妙的模块。接下来,我们就沿着数据流动的路径,一步步拆解其中的运作机制。

进入模型前的数据准备

原始文本进入模型的第一步,是将其切分为标准化的token单元,这一步称为分词。现代分词器通常不采用完整的单词切割方式,而是使用更细粒度的子词单元。例如,“cat”可能对应token ID 537,“sat”对应1024。这些分词器内部维护着一个词汇表,规模通常在5万到10万个token之间。

分词完成后,每个token ID需要通过嵌入表查询,转换为高维向量,即词嵌入。假设模型采用768维的嵌入维度,那么“cat”将被表示为一个包含768个浮点数的向量。值得关注的是,经过充分训练后,语义相近的词(如“cat”与“kitten”)在向量空间中的距离会非常接近。

然而,纯词嵌入存在一个本质缺陷:它无法区分“cat sat on mat”和“mat sat on cat”这类语序差异。为了解决顺序信息缺失的问题,模型为每个位置引入了“位置编码”。它利用正弦和余弦函数为每个位置生成独特的向量,并直接叠加到词嵌入上。这样一来,虽然第一个位置的“the”和第二个位置的“cat”是同一个词,但它们当前的向量表示完全不同。

位置编码的数学公式如下:PE(pos, 2i) = sin(pos/10000^(2i/d_model)),以及PE(pos, 2i+1) = cos(pos/10000^(2i/d_model))。经过位置编码后,每个token的768维向量不仅携带了“它是什么词”的语义信息,还包含了“它在句子中的位置”这一结构信息。

Transformer层的内部工作原理

大语言模型通常由12到96个这样的Transformer块堆叠而成。每一层内部都包含两个核心组件。

首先是多头注意力机制,这也是Transformer最具革命性的创新。假设模型配置了12个注意力头,每个头会专注于不同的语言模式:例如第1头可能侧重主谓关系,捕捉“cat”与“sat”之间的关联;第3头可能处理介词短语,识别“on the mat”的结构;而第8头则负责捕获长距离依赖,将句首与句尾的元素联系起来。

注意力的计算逻辑并不复杂:每个token会生成Query、Key、Value三个向量;随后Query与所有其他token的Key进行相似度计算,得到注意力分数;这些分数经过softmax归一化转换为权重,最后用权重对Value向量进行加权求和。最终结果是,例如“cat”这个token的Query向量在与句中所有token的Key向量计算相似度后,如果发现与“sat”的相似度最高,那么“cat”的新表示就会更多地融入“sat”的信息。

多头机制的巧妙之处在于,它使模型能够同时关注多种语言关系。12个头并行工作,每个头输出一个64维的向量(因为768/12=64),最后拼接成一个完整的768维输出。

第二个核心组件是前馈神经网络。注意力机制主要负责信息交换,而FFN负责信息加工。它是一个两层的全连接网络:第一层将768维扩展到3072维(通常是4倍),并使用ReLU激活函数;第二层再将3072维压缩回768维。FFN对每个token独立处理,可以将其理解为对注意力层输出的“深度加工”,它擅长识别复杂的特征组合,例如“动物+动作”这样的语义模式。

最后不能忽略残差连接与层归一化。每个子层(注意力和FFN)都配备残差连接,即输出 = 子层输出 + 输入。这能有效防止信息在深层网络中丢失。层归一化则负责稳定训练过程,避免激活值过大或过小。这两项设计是保证模型能够堆叠至很深层次的关键因素。

多层堆叠的实际效果

12层Transformer的处理过程是逐层递进的。前几层主要聚焦局部语法结构,例如词性、短语边界;中间层开始处理句法关系,如主谓宾结构;后几层则整合语义信息,理解整句话的真实含义。随着层数增加,token的表示也越来越抽象。例如“cat”的向量表示,在第1层后可能仅包含“名词”信息;到了第6层后,可能已经包含了“句子主语”信息;而到第12层后,它已经演化为“执行坐这个动作的猫”这样一个完整的语义概念。

最终预测输出

经过所有Transformer层的处理,每个token都获得了一个极为丰富的768维表示。对于生成任务而言,模型会重点关注最后一个token(这里即“mat”)的表示。

最后一步,线性投影层将该768维向量投影到词汇表大小。假设词汇表包含50257个词,那么这一步的输出就是一个50257维的向量,每个维度对应一个可能的下一个token。此处的权重矩阵,就是词汇表中每个词对应的“解码”向量。

随后,使用Softmax函数对原始分数(也称为logits)进行归一化,将其转换为概率分布。所有概率之和恰好为1。最终的结果可能呈现为:“purred”概率0.15、“meowed”概率0.12、“jumped”概率0.08、“exploded”概率0.0001……模型通常会选择概率最高的token,但有时也会采用采样策略,以增加输出结果的多样性。

整个过程的精妙之处在于,模型学会了将离散的语言符号映射到一个连续的向量空间,在这个空间中执行复杂的几何变换以捕捉语言规律,最后再映射回离散的词汇空间,产生最终的输出。每一个数字、每一次矩阵乘法,背后承载的都是对语言结构深刻而精准的理解。

来源:https://cloud.tencent.com.cn/developer/article/2695688
上一篇揭秘AI频繁使用破折号背后的原因 下一篇最新研究揭示大模型角色扮演无效了?
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网