游乐游手机版
首页/AI教程/文章详情

春哥Agent通关秘籍第10篇:本地RAG实战(上)

时间:2026-05-30 19:52
一、如何选择【句向量】模型 上一节已经强调过,用于计算知识库向量的模型,与后续提取问题向量的模型,必须是同一款、同一个版本。需要特别注意的是,这类模型并非像 DeepSeek v3 那样的【词向量】模型,而是真正意义上的【句向量】模型。 因此,建议直接在本地部署一个轻量级的句向量模型,完全能够满足日

一、如何选择【句向量】模型

上一节已经强调过,用于计算知识库向量的模型,与后续提取问题向量的模型,必须是同一款、同一个版本。需要特别注意的是,这类模型并非像 DeepSeek v3 那样的【词向量】模型,而是真正意义上的【句向量】模型。

因此,建议直接在本地部署一个轻量级的句向量模型,完全能够满足日常需求。如果在生产环境中使用,可以优先考虑以下几款热门模型:

  • Alibaba-NLP/gte-Qwen2-1.5B-instruct
  • intfloat/multilingual-e5-large-instruct
  • BAAI/bge-m3

其中 bge-m3 具备一项独家能力——【混合检索】。它能够同时输出常规向量以及类似关键词权重的稀疏向量,非常适合在生产环境中优先尝试。

如果只是本地测试、验证流程,追求极致的轻量化,那么下面这几款模型就足够了:

  • BAAI/bge-small-zh-v1.5,约90M,维度512,最大长度512
  • moka-ai/m3e-small,约90M,维度768,最大长度512
  • jinaai/jina-embeddings-v2-small-zh,约120M,维度512,最大长度8192

除非你对长文本或长切片的处理有较高要求,否则在本地快速上手时,建议优先选择 BAAI/bge-small。本文也以该模型为例进行讲解,后续若有生产环境或长文本需求,完全可以参考本文思路自行扩展。

二、下载【句向量】模型并完成验证

2.1 下载模型

首先,前往 ollama.com 官网下载 ollama 客户端。你可以将 ollama 理解为模型界的 pipnpm,专门用于管理和下载模型。下载后可能会自动安装一个GUI桌面应用,暂时忽略它即可。

春哥的Agent通关秘籍10:本地RAG实战(上)

打开命令行工具(cmdbash),执行:

ollama --version

如果显示 ollama version is 0.15.5 或其他版本号,说明安装成功。

接着执行:

ollama pull quentinz/bge-small-zh-v1.5

注意:上面的模型名称是由 quentinz 打包后提供的。

春哥的Agent通关秘籍10:本地RAG实战(上)

下载完成后,下一步就是测试这个模型是否正常工作。

2.2 测试模型

核心思路是通过 ollama 快速启动一个HTTP服务,将其当作私有的AI API来使用。这里提供两种方式:

  • 确保之前被忽略的 ollama GUI 正常打开,即使收进系统托盘也没问题。
  • 新开一个命令行窗口,执行 ollama serve

两种方式任选其一,之后就可以通过HTTP接口调用所有通过 ollama 下载的模型。

接下来进行测试。如果使用 cmd 或 PowerShell,执行:

curl https://localhost:11434/api/embeddings -d "{ \"model\": \"quentinz/bge-small-zh-v1.5\", \"prompt\": \"测试文本\" }"

如果使用 bash,则执行:

curl https://localhost:11434/api/embeddings -d '{"model": "quentinz/bge-small-zh-v1.5","prompt": "测试一下"}'

春哥的Agent通关秘籍10:本地RAG实战(上)

如果看到返回一个包含巨大数组的JSON,说明调用成功了。将这个数组复制出来数一数,会发现它的长度是512,这正是“测试一下”四个字对应的向量。

还记得上一节讲的知识点吗?数组中的每一个浮点数,正是 quentinz/bge-small-zh-v1.5 模型对“测试一下”这四个字在各维度上的特征评估值。

三、下载向量数据库和文本切片器

在 demo 工程中执行 pip 安装依赖:

pip install chromadb ollama langchain-text-splitters
  • chromadb:向量数据库本体,用于存储和检索向量。
  • ollama:方便在 Python 中调用刚才下载的 bge-small 模型。
  • langchain-text-splitters:langchain 是目前应用最广泛的 Agent 开发库,但我们只用到它其中一个很小的功能——文本拆分器,所以暂时只安装这个包即可。

工程中已经生成了 requirements.txt,直接执行 pip install -r requirements.txt 就能安装所有必要的依赖。

下一步预告

下一节课将开始撰写 RAG 系统的核心代码,首当其冲的就是文档切片环节。敬请期待!

春哥的Agent通关秘籍10:本地RAG实战(上)

来源:https://juejin.cn/post/7610141315292856360
上一篇如何利用Midjourney高效提升你的创意与设计能力 下一篇专家混合模型MoE是什么 AI架构核心概念详解
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
用AI写作工具高效撰写研究报告的范文与提示词
AI教程 · 2026-05-30

用AI写作工具高效撰写研究报告的范文与提示词

适合需求: 在当前的学术环境中,撰写研究报告几乎是每位研究人员和学生都必须掌握的核心技能。然而,实际动笔时,尤其是面对海量数据和复杂内容,许多人常感到无从下手——思路混乱、框架松散,导致最终报告要么逻辑不清,要么关键细节遗漏。简单来说,想要写出一份既清晰又严谨的研究报告,往往并不轻松。 研究报告并非

大班七色花PPT制作技巧轻松生成趣味教学材料
AI教程 · 2026-05-30

大班七色花PPT制作技巧轻松生成趣味教学材料

使用情景: 在幼儿教育领域,大班教学尤其需要趣味性与直观性。七色花这一主题天然蕴含着童话般的绚丽色彩,是引导孩子们认识色彩、感受自然之美的绝佳媒介。一份精心制作的大班七色花PPT,能够瞬间点亮课堂,牢牢吸引孩子们的注意力,让课堂充满活力。 如今,PPT已成为幼儿教师不可或缺的教学伙伴,无论是课程总结

CS5090EA与PW4253 8.4V升压充电芯片效率温升对比
AI教程 · 2026-05-30

CS5090EA与PW4253 8.4V升压充电芯片效率温升对比

CS5090EA充电芯片对比研究 8 4V 1A 2A 充电测试对比 概述和测试项目 CS5090EA凭借稳定性和性价比,在工程师圈子里一直有不少拥趸。这次我们干脆拉上它的两位竞品——PW4584A和PW4253,做了一次系统性的对比测试。测试围绕8 4V输出条件展开,分1A和2A两档额定负载,

阿里云Token Plan支持的AI模型与版本对照表
AI教程 · 2026-05-30

阿里云Token Plan支持的AI模型与版本对照表

阿里云百炼Token Plan团队版究竟支持哪些主流AI大模型?简单来说,这个预付费套餐覆盖了千问、万相、DeepSeek、月之暗面、智谱AI和MiniMax等多个热门品牌,具体包含Qwen3 7-Max、Qwen3 6-Plus、Qwen3 6-Flash、Qwen-Image-2 0、Qwen-

PW5100 0.7V启动升压芯片 1.5V转3.3V/5V
AI教程 · 2026-05-30

PW5100 0.7V启动升压芯片 1.5V转3.3V/5V

PW5100是一款高效率、低功耗、低纹波、高工作频率的PFM同步升压DC DC变换器。它能够将干电池的低电压稳定升压至3V、3 3V、3 6V或5V输出。支持单节1 5V干电池或两节串联的3V干电池供电,输出电压可选3 3V、3 6V和5V。需要特别注意:PW5100作为升压IC,输入电压必须低于输