在深入探索大模型之前,我们先快速回顾线性代数中最核心的基础概念。这些知识是理解Transformer、注意力机制等高级技术的基石。
标量
标量本质上就是一个数值——仅具有大小,没有方向。日常生活中涉及的重量、温度、长度、时间、热量等物理量都属于标量。它们可以用一个单一数值完整描述,例如37.5℃、16公斤。

向量
向量相比标量多了一个关键属性——方向。它是同时具备大小和方向的量。在数学中,向量通常用一串有序数字表示,例如 [3, 4]。这串数字既可以代表空间中的一个点坐标,也可以表示朝向某个方向的前进量。牢记向量的两个核心关键词:大小和方向。
矩阵
矩阵是一种二维的数字表格。你可以将其理解为“多个向量的堆叠”。例如,一个 3×4 的矩阵,既可以视为 3 个长度为4的行向量,也可以看作 4 个长度为3的列向量——不同视角下,本质完全相同。
矩阵乘法
这部分是重点,也是Transformer中频繁使用的重要操作。矩阵乘法遵循几条硬性规则:
- 可乘条件:设 A 为 m×n 矩阵,B 为 n×p 矩阵。只有当 A 的列数(n)等于 B 的行数(n)时,两者才能相乘。
- 结果维度:乘积 C = AB 是一个 m×p 矩阵——结果保留第一个矩阵的行数和第二个矩阵的列数。
- 元素计算:C 中第 i 行第 j 列的元素,等于 A 的第 i 行与 B 的第 j 列对应元素乘积之和。这正是点积(Dot Product)的计算方式。
记忆口诀非常简洁:
[A, B] × [B, C] = [A, C]
中间维度必须相同(都是 B),结果取两端的维度。
举例:一个 2×3 矩阵与一个 3×4 矩阵相乘,得到 2×4 矩阵。中间的 3 匹配,两端的 2 和 4 即为结果矩阵的尺寸。
矩阵加法
加法比乘法简单很多——只有行数和列数完全相同的矩阵才能相加。结果矩阵尺寸相同,每个元素等于对应位置元素之和。没有复杂的规则。
Transformer中
最后来看这些概念在实际大模型中的应用:
- 标量:学习率、温度参数(temperature)等用于调节训练或推理的超参数。
- 向量:每个 token(词或符号)的 embedding 表示。
- 矩阵:一批 token 的 embedding(即输入矩阵),以及所有权重矩阵(如 Q、K、V 矩阵)。
不难发现,从最简单的标量到二维矩阵,每一步都在为后续更复杂的神经网络运算夯实基础。
