在前两篇文章演示RAG功能时,我们使用的文本嵌入模型一直是国外的 all-MiniLM-L6-v2。这款模型在英文任务上表现出色,但面对中文场景——虽然能用,细节处理却总是差强人意。例如,专业词汇的边界判断不够精准,同义表达的匹配精度也不够稳定,偶尔会带来一些“似是而非”的错误。今天,我们来聊聊如何替换为国产离线文本嵌入模型,看看在实际应用中,国产模型究竟能带来多大的提升。

一、all-MiniLM-L6-v2 的局限性
先别急着否定 all-MiniLM-L6-v2,它确实有不少亮点:体积仅几十MB,便于本地离线下载;运行速度极快,无需显卡,CPU即可胜任;通用性强,英文场景表现优秀,中文日常RAG也能应付;兼容主流向量库——FAISS、Chroma、Milvus都能无缝接入。但它的短板同样明显:对中文语义的理解能力一般,有时检索结果与正确答案之间仿佛隔着一层薄纱。
举个例子,在之前的《15天学会AI应用开发(八)使用向量数据库实现RAG功能》一文中,我们运行过一段测试代码。当时输入的问题是“RAG是什么”,输出结果如下:
=== 本地智能 RAG 系统:问什么答什么 ===
请输入问题(q退出):RAG是什么
问题:RAG是什么
答案:RAG让大模型能引用外部知识,避免胡说八道。
--------------------------------------------------
而原始知识库的内容是:
"什么是AI:人工智能(AI)是一门使机器模拟人类智能的技术。",
"什么是RAG:RAG代表检索增强生成,通过检索外部知识提升大模型回答准确性。",
"本地RAG消耗Token吗:本地RAG不调用云端API,不消耗Token,完全免费。",
"FAISS是什么:FAISS是Facebook开源的向量检索库,用于本地高效检索。",
"RAG的作用:RAG让大模型能引用外部知识,避免胡说八道。"
发现问题了吗?“RAG是什么”的正确答案应该是第二条知识(RAG代表检索增强生成……),但 all-MiniLM-L6-v2 却把最后一条知识(RAG让大模型能引用外部知识……)当成了答案。虽然两条都与RAG相关,但语义精度存在明显偏差。对于专业中文场景下的RAG应用,替换为国产模型是一个更可靠的选择——例如 BGE-small、BGE-base、Qwen-Embedding 等。
二、下载中文嵌入模型 BGE-small
我们先以 BGE-small 为例。它的模型页面位于 ModelScope,模型文件大小约192.25MB。下载前需要先安装 modelscope 库:
pip install modelscope
接着,通过 cd 命令进入 Python 工程目录,执行下载命令:
modelscope download --model BAAI/bge-small-zh-v1.5 --local_dir bge-small-zh-v1.5
这里的 --model 参数指定模型名称,--local_dir 指定本地保存目录。下载完成后,工程目录下会出现 bge-small-zh-v1.5 文件夹,里面包含完整的模型文件。
三、结合 BGE-small 与 FAISS 实现 RAG
接下来,演示如何利用 BGE-small 和 FAISS 搭建 RAG 检索系统。开始编码前,先安装两个依赖:
pip install faiss-cpu sentence-transformers
然后编写代码。与之前教程的代码相比,只有一行改动——将模型路径从 all-MiniLM-L6-v2 改为 bge-small-zh-v1.5:
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np
# ===================== 你的知识库(完全不变) =====================
knowledge = [
"什么是AI:人工智能(AI)是一门使机器模拟人类智能的技术。",
"什么是RAG:RAG代表检索增强生成,通过检索外部知识提升大模型回答准确性。",
"本地RAG消耗Token吗:本地RAG不调用云端API,不消耗Token,完全免费。",
"FAISS是什么:FAISS是Facebook开源的向量检索库,用于本地高效检索。",
"RAG的作用:RAG让大模型能引用外部知识,避免胡说八道。"
]
# ===================== 加载你本地已有的模型(不变) =====================
embed_model = SentenceTransformer("./bge-small-zh-v1.5", device="cpu")
# 生成向量(把知识库向量化)
vectors = embed_model.encode(knowledge)
# 构建 FAISS 索引
index = faiss.IndexFlatL2(vectors.shape[1])
index.add(np.array(vectors).astype("float32"))
# ===================== RAG 检索(逻辑不变) =====================
def rag(question):
print("\n 问题:" + question)
# 把问题向量化
q_vec = embed_model.encode([question])
# 从 FAISS 检索对应的知识
D, I = index.search(np.array(q_vec).astype("float32"), 1)
best = knowledge[I[0][0]]
answer = best.split(":")[-1]
print(" 答案:" + answer)
print("-" * 50)
# ===================== 运行 =====================
if __name__ == "__main__":
print("=== 本地智能 RAG 系统:问什么答什么 ===")
while True:
q = input("\n请输入问题(q退出):")
if q.lower() == "q":
break
rag(q)
运行一下看看效果。先问“RAG是什么?”,再问“RAG有哪些作用?”,输出如下:
=== 本地智能 RAG 系统:问什么答什么 ===
请输入问题(q退出):RAG是什么?
问题:RAG是什么?
答案:RAG代表检索增强生成,通过检索外部知识提升大模型回答准确性。
--------------------------------------------------
请输入问题(q退出):RAG有哪些作用?
问题:RAG有哪些作用?
答案:RAG让大模型能引用外部知识,避免胡说八道。
--------------------------------------------------
结果非常清晰:问“RAG是什么”时,BGE-small 准确返回了第二条知识;问“RAG有哪些作用”时,也正确匹配了最后一条知识。对比之前 all-MiniLM-L6-v2 的翻车表现,国产模型在中文语义理解上的优势立竿见影。
本系列的AI应用开发文章目录为《15天学会AI应用开发全目录(零基础小白,零Token消耗)》。
