春哥的Agent通关秘籍08从向量到句向量详解

时间：2026-06-01 08:30

向量是固定长度的数字列表，用于表示事物特征。词向量将每个词单独向量化，句向量将整句话作为一个向量处理。句向量在语义检索和私有知识库构建中具有优势，能实现毫秒级百万级检索。

在日常交流中，经常有不少朋友对LLM里几个基本概念感到混淆——向量、词向量、句向量，它们到底有什么区别？其实把这些底层逻辑理清楚，后面搭建RAG架构时，思路会清晰很多。今天先聊聊这几个核心术语。

一、什么是向量

向量在大语言模型里占据非常重要的位置。从数学定义上看，向量同时具备大小和方向，但在AI这个领域，你完全可以把它简化为：一个固定长度的数字列表。

举个容易理解的例子。假设你在玩一款RPG游戏，每个角色都有自己的属性面板：

把这些属性写成数组：
战士 = [99, 5, 30]
法师 = [5, 99, 20]

[99, 5, 30] 这串数字，就是战士这个角色的“向量”。在这个例子里，向量一共有3个维度（力量、智力、敏捷）。它不仅代表数值，还意味着这个角色在“属性空间”里占据着一个独特的位置。

春哥的Agent通关秘籍08：从【向量】到【句向量】

如上图所示，游戏里的任何一个角色，都可以在这个三维坐标系中找到属于自己的点。

理解了这层关系，接下来就好办了。

向量化，说白了就是把一个具体事物转换成计算机更能理解的向量形式的过程。

现在想往游戏里新增一个角色【骑士】，该怎么做？你需要分析它的特点，把这些特点转换成力量、智力、敏捷这三个属性的数值。这个“打分”的过程，就是向量化。

骑士_Vector = [85, 40, 20]

这样一来，数据库里就有了三个点：

春哥的Agent通关秘籍08：从【向量】到【句向量】

计算机很快就能发现：骑士和战士在“力量”维度上数值接近，它们在空间中的距离也更近。就这样，计算机拥有了最基础的判断“相似性”的能力。

作为人类，你可能凭知觉就知道骑士和战士更像，但计算机是通过坐标计算得出这个结论的。这就是向量化让计算机理解语义的核心奥秘。

那么，这和大语言模型有什么关系？

关系非常直接。LLM训练的过程，本质上就是把人类的各种文章、文档向量化的过程。

前面的例子把“向量化”解释得很直观，但我们需要把视野扩大一些。现在输入的不再是RPG游戏的角色名称，而是人类世界里无处不在的语言文本：

如果能把各种语言文本作为输入，稳定地输出一段描述该文本的向量坐标，计算机是不是就能理解人类语言的本质了？

理论上当然可以，但三个维度远远不够。人类的语言太过复杂，于是维度开始爆发——计算机开始使用1024个维度、1536个维度甚至更多来描述一段话的特征。

想象一下，你把公司那条《严禁在生产环境直接修改数据库》的规定扔给模型。模型读到这句话时，它的1536个维度探测针会疯狂跳动。虽然我们无法知道每根针具体代表什么，但通过数学分析可以发现，模型实际上在评估以下这类“抽象特征”：

就这样，模型把这句话压缩成了一个“高强制性+纯技术领域+警告语气”的数学坐标点。这类富含信息量和特征评估的向量，有一个专业名称：稠密向量。

春哥的Agent通关秘籍08：从【向量】到【句向量】

也就是在这个阶段，文本的计算方法衍生出两个思路：

思路A：先拆词，然后对每个词进行向量化。
[我]训练一个向量，[喜欢]训练一个向量，[你]训练一个向量，然后把三个向量形成一个矩阵进行存储训练。这种思路被称为词向量（Word/Token Embedding）。
思路B：不拆词，对一整句话进行向量化。
[我喜欢你]四个字只训练出一个向量。这种思路被称为句向量（Sentence Embedding）。

哪种流派更厉害？春哥的Agent通关秘籍08：从【向量】到【句向量】很显然，【词向量】粒度更细、更复杂，更贴合人类说话的习惯——一个词一个词地学习、理解、组装输出。像DeepSeek、Gemini、ChatGPT这些轰动世界的大模型，都基于这一思路，擅长思考以及与人类对话。