Transformer架构详解从Attention机制到模型原理

首页

热心网友

转载

2026-05-17

计算机只认识0和1。所以，要让机器理解“货拉拉拉不拉拉布拉多”这种句子，第一步就是把文字变成数字。最直接的办法是给每个字一个编号，比如Unicode编码。但问题在于，编号只是个“身份证号”，它本身不携带任何语义。光凭数字“12345”和“67890”，你无法判断这两个字在意思上有没有关联。

假设到了2050年，AI成了地球的主宰，而人类恰好发明了时光机。那么，请务必回到2017年，阻止那篇名为《Attention is All You Need》的论文发表。没有它，就不会有Transformer架构，自然也就没有后来的GPT、DeepSeek这些大模型了。

从翻译问题说起

“货拉拉拉不拉拉布拉多”，短短十个字里，“拉”字出现了六次，含“拉”量高达60%。人类一眼就能理解其含义，并自然地翻译成英文：Can Huolala carry a Labrador。关键在于“理解”，我们才能翻译。

但计算机理解起来就困难了。因为每个“拉”字，在不同的位置含义不同，尤其是中间的“拉不拉”。在中文里，“拉”可以指拉货，也可以指拉扯。对应到英文，可能是carry，也可能是drag或pull。必须结合前面的“货拉拉”和后面的“拉布拉多”，才能准确判断。那么，计算机该如何理解一句话里每个词的含义呢？

token 与向量

我们回到起点。要让计算机处理文本，必须先将其数字化。最朴素的方法——给每个字一个数字编号——行不通，因为它丢失了语义。我们需要一种既能数字化，又能承载语义的方案。

怎么办呢？首先，把句子切分成有意义的词块，每个词块称为一个token。比如这句话，可以被切分为“货拉拉”、“拉不拉”、“拉布拉多”三个token。

接着，想象一个二维坐标系：X轴代表“是否与交通相关”，Y轴代表“是否与动物相关”。那么，“货拉拉”会落在X轴正方向，“拉布拉多”会落在Y轴正方向。像“物流平台”、“网约车”这类词，在坐标系里会更靠近“货拉拉”；而“金毛”、“牧羊犬”则会更靠近“拉布拉多”。

但两个维度显然不够。比如，“货拉拉”、“物流平台”、“网约车”在二维空间里都和交通相关，挤在一起。如果加入第三个维度“是否运货”，就能区分开：“货拉拉”和“物流平台”偏向运货，“网约车”偏向运人。

随着维度不断增加，理论上，世界上所有已知词汇的token都能在这个高维坐标系中找到自己的专属位置。通过海量文本数据的训练，语义相近的词在空间中的位置会彼此靠近，语义无关的词则相距甚远。

词与词之间的关系甚至能用数学计算。例如，“国王”的坐标减去“男人”的坐标，再加上“女人”的坐标，得到的结果会非常接近“王后”的坐标。

至于“拉不拉”这种多义词，它在坐标系里最初只是一个模糊的平均位置。只有结合前后文的语境，它的位置才会被“拉”向正确的语义区域。

每个坐标维度都可以用一个数字表示，因此，每个token最终都可以用一组数字来定义。这种表示方式就是向量（Vector），在实践中也常被称为词嵌入（Embedding）。

向量是什么

但语言不仅有词义，还有顺序。“货拉拉拉不拉拉布拉多”和“拉布拉多拉不拉货拉拉”，意思天差地别。因此，模型还会为每个token加入位置信息，让向量同时包含“它是什么”和“它在什么位置”。

Q、K、V 是什么

知道了每个token对应的向量，我们就可以着手解决翻译的核心难题了：在翻译“拉不拉”这种多义词时，如何结合上下文，判断这个“拉”究竟是carry，还是drag？

这里有个关键洞察：每个词块除了字面意思，还有背后的隐含信息。比如“拉布拉多”，背后关联着“宠物”、“狗”等概念。

于是，我们可以把一句话抽象成一个“词块数据库”。数据库的查询键（Key）是词块本身，对应的值（Value）就是词块背后的含义。

那么，计算机在理解“拉不拉”时，应该重点关注句子中的哪些词呢？这个过程可以抽象为：拿着“拉不拉”这个词作为查询（Query），去词块数据库里遍历所有键（Key），看看哪个词对理解“拉不拉”的参考价值最大。

QKV的计算可以简单理解为词块数据库检索

注意，这个过程涉及三个核心概念：查询（Query）、键（Key）、值（Value）。但直接拿token的原始向量去扮演这三个角色不够灵活，因为一个向量很难同时胜任三项工作。因此，模型会通过三个不同的权重矩阵（Wq, Wk, Wv）对每个token的向量进行变换，生成三个专门的向量，各司其职。

wq, wk, wv的变换

承担查询角色的，叫Q向量，代表“这个token想关注什么”，好比数据库的查询语句（SQL）。

承担键角色的，叫K向量，代表“这个token能提供什么信息”，好比数据库里的索引键。

承担值角色的，叫V向量，代表“这个token背后的真正含义”，好比索引键对应的具体数据值。

每个token经过这三重变换，都得到了自己专属的Q、K、V。

QKV

注意力是什么

有了每个token的Q、K、V，接下来看如何进行计算。

首先，每个token的Q向量会去“拜访”句子中所有token的K向量，通过点积计算两者的相关程度。

用点积计算相关程度

点积，本质上就是向量相乘。从数学上看，它在计算两个向量在空间中的指向是否一致，越同向，数值越大；从效果上看，数值越大，意味着两个token的相关性越高，越值得被重点参考。

以“拉不拉”这个token为例，遍历结束后，我们就得到了“拉不拉”对整个句子中所有token的关注程度分数。

此时，计算机会发现“拉不拉”和“货拉拉”之间的相关性分数很高。于是，“拉不拉”就会更关注“货拉拉”，后续“拉货”这一含义的权重就会被显著放大。

如果向量维度很大，点积的结果可能整体数值偏大，容易导致某个token的关注度被过度放大。为了让不同token之间的关注差异更平滑、更容易区分，模型会在点积之后除以一个数——通常是向量维度K的平方根（√dₖ）。这一步被称为缩放（Scale）。

接下来，模型会通过Softmax函数将这些关注度分数转换为一组权重。这样一来，“拉不拉”对所有token的关注权重之和为1，可以直观理解为“注意力的分配比例”。

最后，用这组权重对所有token的V向量进行加权求和。这就相当于，“拉不拉”知道了应该以多大的比例，从其他token那里提取哪些具体的语义信息。

最终得到的结果，就是“拉不拉”这个token融合了上下文信息之后的新表示，我们可以记作h2。同样，“货拉拉”和“拉布拉多”也会以相同的方式，得到各自的h1和h3。

这一整套计算流程，就是所谓的注意力机制（Attention Mechanism）。可以用一个经典公式来概括：

Attention(Q, K, V) = softmax(QKᵀ / √dₖ) · V

它的核心作用，是让每个token能够根据当前语境，自动决定应该重点参考句子中的哪些其他token。

怕大家还是觉得抽象，我们再来梳理一下：

Q·K点积：计算token之间的关注对象和关注强度。

QK点积的作用

缩放（Scale）：防止点积结果过大，避免Softmax函数进入饱和区导致梯度消失，让模型训练更稳定。

Scale的作用

Softmax：将关注强度转换为概率分布的注意力权重。

softmax的作用

乘以V：用这些权重，从被关注的token中提取并融合具体的语义内容。

乘V的作用

多头注意力

然而，只计算一次注意力是不够的。因为词与词之间的关系是多方面的：有的是语义关联（如“苹果”和“水果”），有的是语法依赖（如“主谓宾”），有的是情感呼应。单一角度的注意力很难捕捉全面。

因此，模型会并行地进行多次注意力计算，每次关注不同的关系侧面。这些并行计算的结果最终会被拼接（Concat）在一起，形成一个更全面的表示。这就是多头注意力（Multi-Head Attention）。

多头注意力

Add & Norm 是什么

通过多头注意力，我们得到了融合了丰富上下文信息的向量表示。

接着，模型会先把注意力的计算结果与这个token最初的输入向量相加。这一步叫做“加”（Add），也叫残差连接（Residual Connection）。它的作用是确保token自身最原始的信息不会被后续复杂的变换完全覆盖，相当于保留了一条“捷径”。

然后，为了让数值分布保持稳定，避免在深层网络中传播时出现过大或过小的值，模型会对相加后的结果进行一次标准化处理。这一步通常被称为“归一化”（Norm），比如层归一化（LayerNorm）。

这样，既保留了原有信息，又避免了数值在多层计算后失控。

add&Norm是什么

前馈网络是什么

经过残差连接和归一化后，从输入到输出的映射关系本质上还是线性的。可以想象成，不同token向量的变换路径都是笔直的直线，这难以捕捉自然语言中复杂的、非线性的语义关联。

为了让模型具备更强的表达能力，需要引入非线性。模型会让向量通过一个前馈网络（Feed-Forward Network, FFN）。它的核心作用，是通过ReLU等激活函数，把“线性的映射路径”掰弯，变成非线性的曲线，从而能够拟合更复杂的语义模式。

非线性变换

随后，同样会再进行一次“加”和“归一化”操作。

add&Norm是什么

编码器是什么

至此，多头注意力、Add & Norm、前馈网络、再一次的Add & Norm，共同构成了一个完整的编码层（Encoder Layer）。

一个编码层能让模型对整句话形成一次深度的上下文理解。将多个这样的编码层堆叠起来，模型对语义的理解就会像剥洋葱一样，逐层深入和精炼。

多个编码层堆叠在一起，就组成了一个编码器（Encoder）。

编码器的最终输出，是一组向量。这组向量是原句中各个词块，在经过多层上下文信息融合之后，形成的数字表现形式。它代表了计算机对输入文本的整体语义理解。

编码器是什么

翻译原理

接下来，就要基于编码器输出的这份“中文理解”，开始生成英文了。

生成英文是一个词一个词进行的。首先，我们会放入一个固定的起始符号，它表示“英文翻译从这里开始”。模型会结合编码器输出的中文语义，预测最合理的第一个英文词。在我们的例子中，生成的是“Can”。接着，模型会把和 “Can” 一起作为输入，预测下一个词“Huolala”，以此类推。每一步都是在已有生成结果的基础上，预测下一个最合理的词，就像玩成语接龙。

翻译问题

这个过程需要解决两个关键问题：

第一个问题，新生成的词如何与已经写下的英文内容自然衔接，保证语法和表达的连贯性？

好办，还是用注意力机制。毕竟那篇论文的核心思想就是“Attention is All You Need”。我们依然将正在生成的英文序列理解为一个“词块数据库”。

此时，查询（Q）是当前要预测单词的位置。键（K）和值（V）来自哪里？既然要保证英文自身的连贯，模型应该只关注已经生成出来的那部分英文。所以，K和V就来自已生成的英文词块数据库。这相当于在预测第n个词时，只允许它依赖前n-1个词的结果，确保生成过程是严格从左到右的。这就像把后面还没生成的部分“掩盖”起来，因此被称为带掩码的多头自注意力（Masked Multi-Head Self-Attention）。

带掩码的多头注意力