游乐游手机版
首页/AI教程/文章详情

春哥的Agent通关秘籍08从向量到句向量详解

时间:2026-06-01 08:30
向量是固定长度的数字列表,用于表示事物特征。词向量将每个词单独向量化,句向量将整句话作为一个向量处理。句向量在语义检索和私有知识库构建中具有优势,能实现毫秒级百万级检索。

在日常交流中,经常有不少朋友对LLM里几个基本概念感到混淆——向量、词向量、句向量,它们到底有什么区别?其实把这些底层逻辑理清楚,后面搭建RAG架构时,思路会清晰很多。今天先聊聊这几个核心术语。

一、什么是向量

向量在大语言模型里占据非常重要的位置。从数学定义上看,向量同时具备大小和方向,但在AI这个领域,你完全可以把它简化为:一个固定长度的数字列表。

举个容易理解的例子。假设你在玩一款RPG游戏,每个角色都有自己的属性面板:

  • 战士:力量 99,智力 5,敏捷 30

  • 法师:力量 5,智力 99,敏捷 20

把这些属性写成数组:
战士 = [99, 5, 30]
法师 = [5, 99, 20]

[99, 5, 30] 这串数字,就是战士这个角色的“向量”。在这个例子里,向量一共有3个维度(力量、智力、敏捷)。它不仅代表数值,还意味着这个角色在“属性空间”里占据着一个独特的位置。

春哥的Agent通关秘籍08:从【向量】到【句向量】

如上图所示,游戏里的任何一个角色,都可以在这个三维坐标系中找到属于自己的点。

理解了这层关系,接下来就好办了。

二、什么是向量化

向量化,说白了就是把一个具体事物转换成计算机更能理解的向量形式的过程。

现在想往游戏里新增一个角色【骑士】,该怎么做?你需要分析它的特点,把这些特点转换成力量、智力、敏捷这三个属性的数值。这个“打分”的过程,就是向量化。

骑士_Vector = [85, 40, 20]

这样一来,数据库里就有了三个点:

  • 战士 [99, 5, 30]

  • 法师 [5, 99, 20]

  • 骑士 [85, 40, 20]

春哥的Agent通关秘籍08:从【向量】到【句向量】

计算机很快就能发现:骑士和战士在“力量”维度上数值接近,它们在空间中的距离也更近。就这样,计算机拥有了最基础的判断“相似性”的能力。

作为人类,你可能凭知觉就知道骑士和战士更像,但计算机是通过坐标计算得出这个结论的。这就是向量化让计算机理解语义的核心奥秘。

那么,这和大语言模型有什么关系?

关系非常直接。LLM训练的过程,本质上就是把人类的各种文章、文档向量化的过程。

三、对人类语言的向量化评估

前面的例子把“向量化”解释得很直观,但我们需要把视野扩大一些。现在输入的不再是RPG游戏的角色名称,而是人类世界里无处不在的语言文本:

  • 一句问候:“你好”
  • 一首情诗,100字
  • 一篇技术文档,500字
  • 一段代码,1000字

如果能把各种语言文本作为输入,稳定地输出一段描述该文本的向量坐标,计算机是不是就能理解人类语言的本质了?

理论上当然可以,但三个维度远远不够。人类的语言太过复杂,于是维度开始爆发——计算机开始使用1024个维度、1536个维度甚至更多来描述一段话的特征。

3.1 稠密向量

想象一下,你把公司那条《严禁在生产环境直接修改数据库》的规定扔给模型。模型读到这句话时,它的1536个维度探测针会疯狂跳动。虽然我们无法知道每根针具体代表什么,但通过数学分析可以发现,模型实际上在评估以下这类“抽象特征”:

  • 特征维度 #42(可能与“强制性”有关):语气非常强硬(“严禁”),这个维度的数值飙升到0.99。

  • 特征维度 #108(可能与“技术领域”有关):包含“数据库”“生产环境”,数值为0.85。

  • 特征维度 #555(可能与“情感色彩”有关):警告性质,带有负面后果暗示,数值可能是-0.6。

  • 特征维度 #999(可能与“美食/烹饪”有关):与文本没有关系,数值为0.00。

就这样,模型把这句话压缩成了一个“高强制性+纯技术领域+警告语气”的数学坐标点。这类富含信息量和特征评估的向量,有一个专业名称:稠密向量

春哥的Agent通关秘籍08:从【向量】到【句向量】

3.2 词与句,流派之分

也就是在这个阶段,文本的计算方法衍生出两个思路:

  • 思路A:先拆词,然后对每个词进行向量化。
    [我]训练一个向量,[喜欢]训练一个向量,[你]训练一个向量,然后把三个向量形成一个矩阵进行存储训练。这种思路被称为词向量(Word/Token Embedding)。

  • 思路B:不拆词,对一整句话进行向量化。
    [我喜欢你]四个字只训练出一个向量。这种思路被称为句向量(Sentence Embedding)。

哪种流派更厉害?春哥的Agent通关秘籍08:从【向量】到【句向量】很显然,【词向量】粒度更细、更复杂,更贴合人类说话的习惯——一个词一个词地学习、理解、组装输出。像DeepSeek、Gemini、ChatGPT这些轰动世界的大模型,都基于这一思路,擅长思考以及与人类对话。

那【句向量】就一无是处吗?当然不是。

【句向量】在特定领域同样大放异彩。它擅长整段整段地进行文本检索和语义理解,在后续要介绍的场景——私有知识库——当中,它反而更加好用。

四、【句向量】:天生我材必有用

假设你有很多企业内部文档、私人文档需要形成一个知识库。你并不需要和这些文档对话,而是要快速找到文档中相关度最高的位置。在这个场景下,基于一句话进行向量化的【句向量】反而具备了优势——它的向量本身就是基于一段一段的话进行特征标注的。

在快速检索知识区域方面,【句向量】相比【词向量】具备以下优点:

  • 数学上可行:把长短不一的文本变成固定长度的“条形码”,才能计算距离。

  • 语义上精准:提取的是中心思想,而不是碎片化的词。

  • 工程上极速:让百万级检索能在毫秒级完成。

正因为这些特点,【句向量】成为了构建私有材料库和知识库检索的核心技术。

只是本地检索会不会太没想象力?检索出来后,再把准确的文本塞到大模型(比如DeepSeek)的对话里,效果会更加惊艳。

春哥的Agent通关秘籍08:从【向量】到【句向量】

下一步预告

基于本章的理论,下次将梳理RAG架构所需要的模型、组件以及关键步骤。敬请期待。

春哥的Agent通关秘籍08:从【向量】到【句向量】

来源:https://juejin.cn/post/7604678037808185380
上一篇1024Code AI云端开发环境 助力协作编程与学习创作 下一篇AI智能写作平台提升企业写作效率的关键作用
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
企业如何应对AI写作软件崛起与内容创作新时代挑战
AI教程 · 2026-06-01

企业如何应对AI写作软件崛起与内容创作新时代挑战

数字化浪潮下,企业比以往任何时候都更依赖高效的内容创作工具来抢占市场先机。AI写作软件的崛起,本质上就是对这一需求的精准回应。就拿一家叫“文思科技”的初创企业来说,他们推新产品时,内容创作成了拦路虎。团队按传统方式磨文案,时间花了,精力耗了,效果却不尽如人意。后来借助AI写作软件,短短几天就拿出了产

AI智能大脑驱动客户体验优化的高效策略
AI教程 · 2026-06-01

AI智能大脑驱动客户体验优化的高效策略

AI Brain for CX:给客户体验装上专属大脑 先说说一款核心产品:AI Brain for CX,即面向客户体验的AI大脑。这是Twig公司推出的人工智能驱动工具,核心目标十分明确——借助人工智能全面提升客户体验的质量与效率。它并非通用型AI,而是针对客户支持、客户成功、运营以及客户引导等

AI写作平台对提升企业内容创作效率的作用与挑战
AI教程 · 2026-06-01

AI写作平台对提升企业内容创作效率的作用与挑战

先给出几个核心判断。AI写作平台这一概念,如今已经算不上全新事物。在信息过载的时代,越来越多的企业开始将目光聚焦于如何提升内容创作的效率与质量。一项调查数据颇具启发性:超过60%的市场营销人员坦言,他们迫切希望借助AI写作工具来优化内容质量,节省宝贵时间。从实际发展来看,这一愿景正在逐步成为现实。不

Question AI智能问答助手快速解决学习问题
AI教程 · 2026-06-01

Question AI智能问答助手快速解决学习问题

Question AI智能问答助手深度介绍 在众多学习工具中,Question AI 无疑是一款兼具智能与实用性的产品。它本质上是一款强大的智能问答助手,但实际覆盖的功能比许多人想象的更加全面。简单来说,只要你提出任何问题,它都能迅速给出准确的答案与解决方案——无论是学术领域的疑难,还是日常生活中的

QQ浏览器现已全面接入元宝AI助手
AI教程 · 2026-06-01

QQ浏览器现已全面接入元宝AI助手

QQ浏览器近期迎来重大升级:元宝助手现已正式接入。 元宝助手 这次集成并非简单功能叠加,而是致力于让QQ浏览器蜕变为更纯粹、更原生的AI浏览器。无论是网页浏览、信息搜索、内容创作还是在线学习,AI都能全程辅助,切实提升每个环节的效率。 升级至最新版本后,你会发现元宝助手已悄然融入浏览器的各个角落。它