大模型代数基础精讲：向量、矩阵与点积运算

时间：2026-06-30 16:12

在深入探索大模型之前，我们先快速回顾线性代数中最核心的基础概念。这些知识是理解Transformer、注意力机制等高级技术的基石。标量标量本质上就是一个数值——仅具有大小，没有方向。日常生活中涉及的重量、温度、长度、时间、热量等物理量都属于标量。它们可以用一个单一数值完整描述，例如37 5℃、1

在深入探索大模型之前，我们先快速回顾线性代数中最核心的基础概念。这些知识是理解Transformer、注意力机制等高级技术的基石。

标量

标量本质上就是一个数值——仅具有大小，没有方向。日常生活中涉及的重量、温度、长度、时间、热量等物理量都属于标量。它们可以用一个单一数值完整描述，例如37.5℃、16公斤。

大模型-代数基础知识(向量，矩阵，点积)

向量

向量相比标量多了一个关键属性——方向。它是同时具备大小和方向的量。在数学中，向量通常用一串有序数字表示，例如 [3, 4]。这串数字既可以代表空间中的一个点坐标，也可以表示朝向某个方向的前进量。牢记向量的两个核心关键词：大小和方向。

矩阵

矩阵是一种二维的数字表格。你可以将其理解为“多个向量的堆叠”。例如，一个 3×4 的矩阵，既可以视为 3 个长度为4的行向量，也可以看作 4 个长度为3的列向量——不同视角下，本质完全相同。

矩阵乘法

这部分是重点，也是Transformer中频繁使用的重要操作。矩阵乘法遵循几条硬性规则：

可乘条件：设 A 为 m×n 矩阵，B 为 n×p 矩阵。只有当 A 的列数（n）等于 B 的行数（n）时，两者才能相乘。
结果维度：乘积 C = AB 是一个 m×p 矩阵——结果保留第一个矩阵的行数和第二个矩阵的列数。
元素计算：C 中第 i 行第 j 列的元素，等于 A 的第 i 行与 B 的第 j 列对应元素乘积之和。这正是点积（Dot Product）的计算方式。

记忆口诀非常简洁：

[A, B] × [B, C] = [A, C]

中间维度必须相同（都是 B），结果取两端的维度。

举例：一个 2×3 矩阵与一个 3×4 矩阵相乘，得到 2×4 矩阵。中间的 3 匹配，两端的 2 和 4 即为结果矩阵的尺寸。

矩阵加法

加法比乘法简单很多——只有行数和列数完全相同的矩阵才能相加。结果矩阵尺寸相同，每个元素等于对应位置元素之和。没有复杂的规则。

Transformer中

最后来看这些概念在实际大模型中的应用：

标量：学习率、温度参数（temperature）等用于调节训练或推理的超参数。
向量：每个 token（词或符号）的 embedding 表示。
矩阵：一批 token 的 embedding（即输入矩阵），以及所有权重矩阵（如 Q、K、V 矩阵）。

不难发现，从最简单的标量到二维矩阵，每一步都在为后续更复杂的神经网络运算夯实基础。

来源：https://cloud.tencent.com.cn/developer/article/2700121

大模型

上一篇Claude Code Loop 快速入门从一行命令到自动迭代 下一篇边缘AI是什么身边的本地聪明大脑

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-30

企业组织级AI赋能具体实施方法

前段时间收到一位读者的留言，希望聊聊企业级、组织级的AI赋能究竟该怎么落地。巧的是，前几天刚看到一份咨询调研机构的数据：对近一两年所有企业级AI赋能项目的统计显示，超过90%的甲方企业认为，AI赋能在核心业务价值链上没有发挥任何实质性作用。除了AI辅助办公、企业智能知识库这类边缘应用起到了一些辅助效

AI教程 · 2026-06-30

Scrapy与Redis分布式架构的日本电商多平台数据聚合系统

从事日本电商数据聚合工作时，最大的难点在于要同时应对雅虎拍卖、煤炉（Mercari）、乐天和亚马逊日本站等截然不同的平台。以往使用单机爬虫，经常出现运行中崩溃的情况——单点故障、带宽利用率不足、数据存储混乱，这三大痛点令人困扰。本文分享一套基于Scrapy + Redis的分布式爬虫方案，专门解决

AI教程 · 2026-06-30

详细PuTTY 0.81安装教程 SSH远程连接与自定义路径设置

PuTTY（简称PT）是一款轻量级开源SSH Telnet客户端，凭借简洁高效的特性，多年来始终是系统管理员与开发者进行远程连接的首选利器。本教程将详细介绍PuTTY 0 81版本的完整安装过程，并指导您自定义安装路径，以便更灵活地管理SSH远程连接工具。安装准备首先需要说明的是，整个安装流

AI教程 · 2026-06-30

在线教育系统必备功能：直播课堂与题库考试架构

很多人一想到做在线教育系统，第一反应往往是先把直播间和课程播放器搭起来，觉得“能看课”就万事大吉了。真到落地那天才发现，系统能不能顺滑跑起来，关键全藏在那些细节里——课程怎么组织、学习进度怎么记、考试怎么处理、后台怎么管得住。前端看起来就几个页面，后端其实是一整条业务链路。不管你是要做在线教育APP

AI教程 · 2026-06-30

ZStack源码级AI诊断套件让故障排查秒出答案

一次故障排查，到底要花多少时间？运维人员处理私有云、虚拟化平台的问题，流程大致都是这样：先翻日志看现象，再去文档里找对应机制，然后搜社区有没有类似案例，最后综合判断给出答复。简单问题半小时，复杂问题可能要跨天——而这些时间里，大部分精力耗在了“找信息”而不是“做决策”上。类似的问题，也许每天都在