在日常开发中,想要让企业知识库真正“精准”起来,核心就在于Embedding和向量模型的选择。很多开发者容易混淆这两个概念,甚至直接认为它们是同一回事。今天,我们就彻底梳理清楚这些关键理念,并盘点2025年初市面上值得关注的Embedding模型。
首先,厘清几个核心概念及其层级关系,能让后续的选型工作事半功倍,避免因概念不清导致抓不住重点。

概念定义与层级关系
先来了解Embedding(嵌入模型)。它的本质是一项将数据转化为向量的技术或过程,目标是把结构各异的数据——例如一段文本或一张图片——转换成一串低维度的稠密向量。这样做是为了捕捉数据的“语义特征”,让机器更好地理解内容。
文本Embedding:例如,将一个完整的句子映射成一个1536维的向量。关键在于,语义越相似的句子,它们在向量空间中的距离就越接近,如同在地图上将相似的概念放在邻近的位置。
图像Embedding:同理,将一张图片转化为向量。这使得跨模态检索得以实现,例如,通过“一只橙色条纹猫”的文字描述,精准找到对应的图片。
再来理解向量模型(Vector Model)。它是在Embedding生成的向量基础上,执行具体任务的模型,可以看作是Embedding技术的下游应用。简而言之,Embedding是打地基,而向量模型则是在地基上建造房屋。
- 分类模型:利用这些向量训练一个分类器(如SVM或神经网络),用于情感分析。例如,输入一段影评,判断其情感倾向是正面还是负面。
- 检索模型:通过计算向量之间的相似度,实现高效的语义搜索。像Gemini Embedding的文档检索功能,其底层逻辑正是如此。
因此,向量模型本质上属于一种应用优化型的Embedding模型子集,它的侧重点在于提升性能和针对特定场景的适配性。换句话说,Embedding提供基础能力,而向量模型则是面向生产环境的增强版本。
常见Embedding模型排行总结
数据截止至2025年3月。许多团队正在重新审视他们的RAG选型策略,以下表格提供了全面的参考。Borda排名是一种综合排序方法,融合了MTEB基准测试中多个维度的得分。
| 排名(Borda) | 模型 | 零样本学习 | 参数数量 | 嵌入维度 | 最大令牌数 | 任务平均得分 | 任务类型平均得分 | 双语挖掘 | 分类 | 聚类 | 指令检索 | 多标签分类 | 成对分类 | 重排序 | 检索 | 语义文本相似度 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | gemini-embedding-exp-03-07 | 99 | 未知 | 3072 | 8192 | 68.32 | 59.64 | 79.28 | 71.82 | 54.99 | 5.18 | 29.16 | 83.63 | 65.58 | 67.71 | 79.4 |
| 2 | Linq-Embed-Mistral | 99 | 70亿 | 4096 | 32768 | 61.47 | 54.21 | 70.34 | 62.24 | 51.27 | 0.94 | 24.77 | 80.43 | 64.37 | 58.69 | 74.86 |
| 3 | gte-Qwen2-7B-instruct | -1 | 70亿 | 3584 | 32768 | 62.51 | 56 | 73.92 | 61.55 | 53.36 | 4.94 | 25.48 | 85.13 | 65.55 | 60.08 | 73.98 |
| 4 | multilingual-e5-large-instruct | 99 | 5.6亿 | 1024 | 514 | 63.23 | 55.17 | 80.13 | 64.94 | 51.54 | -0.4 | 22.91 | 80.86 | 62.61 | 57.12 | 76.81 |
| 5 | SFR-Embedding-Mistral | 96 | 70亿 | 4096 | 32768 | 60.93 | 54 | 70 | 60.02 | 52.57 | 0.16 | 24.55 | 80.29 | 64.19 | 59.44 | 74.79 |
| 6 | GritLM-7B | 99 | 70亿 | 4096 | 4096 | 60.93 | 53.83 | 70.53 | 61.83 | 50.48 | 3.45 | 22.77 | 79.94 | 63.78 | 58.31 | 73.33 |
| 7 | text-multilingual-embedding-002 | 99 | 未知 | 768 | 2048 | 62.13 | 54.32 | 70.73 | 64.64 | 48.47 | 4.08 | 22.8 | 81.14 | 61.22 | 59.68 | 76.11 |
| 8 | GritLM-8x7B | 99 | 570亿 | 4096 | 4096 | 60.5 | 53.39 | 68.17 | 61.55 | 50.88 | 2.44 | 24.43 | 79.73 | 62.61 | 57.54 | 73.16 |
| 9 | e5-mistral-7b-instruct | 99 | 70亿 | 4096 | 32768 | 60.28 | 53.18 | 70.58 | 60.31 | 51.39 | -0.62 | 22.2 | 81.12 | 63.82 | 55.75 | 74.02 |
| 10 | Cohere-embed-multilingual-v3.0 | -1 | 未知 | 512 | 未知 | 61.1 | 53.31 | 70.5 | 62.95 | 47.61 | -1.89 | 22.74 | 79.88 | 64.07 | 59.16 | 74.8 |
| 11 | gte-Qwen2-1.5B-instruct | -1 | 10亿 | 8960 | 32768 | 59.47 | 52.75 | 62.51 | 58.32 | 52.59 | 0.74 | 24.02 | 81.58 | 62.58 | 60.78 | 71.61 |
| 12 | bilingual-embedding-large | 98 | 5.59亿 | 1024 | 514 | 60.94 | 53 | 73.55 | 62.77 | 47.24 | -3.04 | 22.36 | 79.83 | 61.42 | 55.1 | 77.81 |
| 13 | text-embedding-3-large | -1 | 未知 | 3072 | 8191 | 58.92 | 51.48 | 62.17 | 60.27 | 47.49 | -2.68 | 22.03 | 79.17 | 63.89 | 59.27 | 71.68 |
| 14 | SFR-Embedding-2_R | 96 | 70亿 | 4096 | 32768 | 59.84 | 52.91 | 68.84 | 59.01 | 54.33 | -1.8 | 25.19 | 78.58 | 63.04 | 57.93 | 71.04 |
| 15 | jasper_en_vision_language_v1 | 92 | 10亿 | 8960 | 131072 | 60.63 | 0.26 | 22.66 | 55.12 | 71.5 | ||||||
| 16 | stella_en_1.5B_v5 | 92 | 10亿 | 8960 | 131072 | 56.54 | 50.01 | 58.56 | 56.69 | 50.21 | 0.21 | 21.84 | 78.47 | 61.37 | 52.84 | 69.91 |
| 17 | NV-Embed-v2 | 92 | 70亿 | 4096 | 32768 | 56.25 | 49.64 | 57.84 | 57.29 | 41.38 | 1.04 | 18.63 | 78.94 | 63.82 | 56.72 | 71.1 |
| 18 | Solon-embeddings-large-0.1 | -1 | 5.59亿 | 1024 | 514 | 59.63 | 52.11 | 76.1 | 60.84 | 44.74 | ||||||
| 19 | Voyage-lite-01 | 89 | 3.5亿 | 512 | 2048 | 58.21 | 51.3 | 65.72 | 57.83 | 45.12 | -1.5 | 20.55 | 76.34 | 60.12 | 53.89 | 69.75 |
| 20 | text-embedding-ada-002 | -1 | 未知 | 1536 | 8191 | 57.89 | 50.91 | 63.45 | 59.01 | 46.78 | -2.1 | 21.37 | 77.92 | 61.05 | 57.14 | 70.23 |
| 21 | BGE-M3 | 99 | 5.6亿 | 1024 | 8192 | 65.1 | 57.4 | 82.3 | 67.1 | 53.8 | 4.2 | 26.9 | 84.7 | 66.2 | 63.5 | 78.9 |
| 22 | gte-large-en-v1.5 | 95 | 5.6亿 | 1024 | 512 | 59.8 | 52.6 | 72.4 | 61.8 | 50.2 | 1.8 | 23.5 | 80.1 | 62.7 | 58.9 | 75.3 |
| 23 | NV-Embed-v1 | 90 | 70亿 | 4096 | 32768 | 55.78 | 49.12 | 56.93 | 56.41 | 40.25 | 0.87 | 18.02 | 77.65 | 62.15 | 55.03 | 70.44 |
| 24 | E5-base-v2 | 94 | 3.4亿 | 768 | 512 | 58.63 | 51.75 | 70.12 | 59.34 | 49.01 | -0.75 | 21.89 | 79.02 | 60.98 | 56.47 | 74.16 |
| 25 | M3E-base | 92 | 2.2亿 | 768 | 512 | 57.92 | 50.83 | 68.45 | 58.21 | 47.92 | -1.23 | 20.75 | 78.12 | 59.34 | 54.89 | 72.56 |
| 26 | text-embedding-v2.0 | -1 | 未知 | 512 | 4096 | 56.45 | 49.78 | 61.23 | 55.89 | 44.12 | -2.45 | 19.78 | 75.45 | 58.23 | 52.67 | 68.94 |
| 27 | Instructor-XL | 91 | 13亿 | 1024 | 512 | 59.12 | 52.04 | 71.34 | 60.45 | 48.67 | 1.23 | 22.45 | 79.89 | 61.23 | 57.45 | 73.12 |
| 28 | all-mpnet-base-v2 | 88 | 1.1亿 | 768 | 514 | 56.78 | 50.12 | 67.45 | 57.23 | 46.78 | -0.89 | 20.12 | 76.89 | 58.45 | 53.78 | 71.45 |
| 29 | contriever-base | 85 | 1.1亿 | 768 | 512 | 55.23 | 48.89 | 63.12 | 54.78 | 43.45 | -1.56 | 18.89 | 74.56 | 56.12 | 51.23 | 69.12 |
| 30 | bge-small-en-v1.5 | 90 | 3.4亿 | 384 | 512 | 57.45 | 50.56 | 66.78 | 56.89 | 45.23 | -0.45 | 19.56 | 75.89 | 57.45 | 54.12 | 70.78 |
纵观整体排名,Gemini的Embedding实验版在综合任务中拔得头筹,而BGE-M3则在多语言和检索场景中表现尤为突出。接下来的几个细分表格,将帮助您针对具体场景快速做出决策。
全英文Embedding模型对比分析表
基于MTEB基准测试与开源生态,以下是主流英文嵌入模型的核心指标对比:
| 模型名称 | 任务平均分 | 检索得分 | 语义相似度 | 开源状态 | 向量维度 | 最大序列长度 | 适用场景推荐 |
|---|---|---|---|---|---|---|---|
| Gemini-Embedding-Exp | 68.32 | 67.71 | 79.4 | 闭源 | 3072 | 8192 | 高精度语义匹配、搜索引擎优化 |
| BGE-M3 | 65.10 | 63.50 | 78.9 | 开源 | 1024 | 8192 | 多语言混合检索、企业知识库 |
| Linq-Embed-Mistral | 61.47 | 58.69 | 74.86 | 闭源 | 4096 | 32768 | 长文档分析、学术论文解析 |
| gte-Qwen2-7B | 62.51 | 60.08 | 73.98 | 开源 | 3584 | 32768 | 长文本生成式问答、指令检索 |
| Cohere-embed-v3.0 | 61.10 | 59.16 | 74.80 | 闭源 | 512 | 未公开 | 边缘计算、轻量化部署 |
| multilingual-e5-large | 63.23 | 57.12 | 76.81 | 开源 | 1024 | 514 | 多任务平衡、通用语义理解 |
全中文Embedding模型对比分析表
基于中文场景任务优化与开源生态,以下是主流中文嵌入模型的核心指标对比:
| 模型名称 | 开源状态 | 向量维度 | 最大序列长度 | 中文语义相似度 | 中文检索能力 | 适用场景推荐 | 关键优势与限制 |
|---|---|---|---|---|---|---|---|
| BGE-M3 | 开源 | 1024 | 8192 | 78.9 | 63.50 | 多语言混合检索、企业知识库 | 支持100+语言,跨语言得分82.3,需较高计算资源 |
| M3E-base | 开源 | 768 | 512 | 72.56 | 54.89 | 通用语义理解、短文本分类 | 轻量化部署,中文任务表现良好,但长文本支持较弱 |
| Text2Vec-large | 开源 | 1024 | 512 | 75.30 | 55.62 | 高精度语义匹配、问答系统 | 中文单语言深度优化,开源社区微调方案成熟 |
| Ernie-3.0 | 开源 | 768 | 2048 | 76.81 | 57.12 | 长文本摘要、内容推荐系统 | 百度自研,融合知识图谱,但长序列推理延迟较高 |
| 众安Embedding | 闭源 | 未公开 | 未公开 | 78.2 | 61.8 | 金融/法律专业领域解析 | 中文FAQ数据集表现优异,但模型细节未开放 |
| Jina-embeddings-v2 | 开源 | 512 | 8192 | 71.10 | 56.72 | 多模态混合检索、边缘计算 | 支持中英双语,内存占用低,但语义精度中等 |
中英文混合Embedding模型对比分析表
基于跨语言任务优化与开源生态,以下是主流中英文混合嵌入模型的核心指标对比:
| 模型名称 | 开源状态 | 支持语言 | 关键指标 | 适用场景推荐 | 核心优势与限制 |
|---|---|---|---|---|---|
| BGE-M3 | 开源 | 中英+100+语言 | 跨语言得分82.3,检索63.5,语义78.9 | 多语言知识库、跨语言搜索 | 开源生态完善,但需较高计算资源 |
| Nomic-ai/nomic-embed-text | 开源 | 中英+多语言 | 长文本支持8192 tokens,检索61.2 | 长文档混合解析、法律合同 | 完全开源,长文本性能优于OpenAI |
| Gemini Embedding | 闭源 | 中英+主要语言 | 语义相似度79.4,检索67.71 | 高精度混合语义匹配 | 闭源API调用,需接受数据隐私风险 |
| Jina-embeddings-v2 | 开源 | 中英双语 | 内存占用低(512维),QPS≥1200 | 边缘计算、轻量化混合场景 | 推理速度快,但语义精度中等 |
| multilingual-e5-large | 开源 | 中英+100+语言 | 任务平均分63.23,语义76.81 | 通用语义理解、多任务平衡 | 开源模型中跨语言性能均衡 |
| 众安Embedding | 闭源 | 中英+垂直领域 | 金融/法律领域语义78.2,检索61.8 | 专业领域混合文本解析 | 垂直场景表现优异,技术细节未公开 |
BGE系列Embedding模型对比分析表
基于检索增强生成(RAG)需求与模型特性,以下是BGE系列模型的核心差异与配置要求对比:
| 模型名称 | 核心特性 | 向量维度 | 最大序列长度 | 多语言支持 | 训练方法 | 适用场景 | 最低配置要求 |
|---|---|---|---|---|---|---|---|
| BGE-M3 | 支持100+语言、长文本(8192 tokens)、稠密/稀疏/多向量三模式检索 | 1024 | 8192 | ✔️ | RetroMAE预训练+无监督对比学习 | 多语言混合检索、长文档RAG | 16GB显存,多核CPU |
| bge-m3-unsupervised | 仅通过无监督对比学习优化,跨语言能力弱于完整版BGE-M3 | 1024 | 8192 | ✔️ | 无监督对比学习 | 低成本多语言初步实验 | 8GB显存 |
| bge-m3-retromae | 仅包含RetroMAE预训练阶段,未集成多检索功能 | 1024 | 8192 | ✔️ | RetroMAE预训练 | 长文本语义理解基础研究 | 12GB显存 |
| bge-large-en-v1.5 | 英文专用高精度模型,MTEB英文任务平均分63.5 | 1024 | 512 | ❌ | 监督微调+对比学习 | 纯英文高精度检索 | 8GB显存,4核CPU |
| bge-base-en-v1.5 | 平衡版英文模型,精度略低于Large版,推理速度提升30% | 768 | 512 | ❌ | 监督微调+对比学习 | 英文通用场景+中等资源环境 | 4GB显存,2核CPU |
| bge-small-en-v1.5 | 轻量化英文模型,内存占用仅为Large版的1/3 | 512 | 512 | ❌ | 监督微调+对比学习 | 边缘设备部署、实时性优先场景 | 2GB显存,单核CPU |
RAG选型建议
掌握了这么多数据后,最终要落实到实际的模型选型。不同的应用场景,关注的侧重点也完全不同。
1. 多语言混合场景
首选方案:BGE-M3(完整版)。它支持100多种语言的混合检索,长文本处理能力强(8192 tokens),其三模式检索(稠密+稀疏+多向量)能显著提升RAG系统的召回率。当然,相应的计算资源需求也较高,建议至少配备16GB显存和多核CPU。
替代方案:如果对多检索功能的需求不那么强烈,可以考虑bge-m3-retromae,显存需求可降至12GB,但检索的灵活性会有所妥协。
2. 纯英文高精度场景
高精度需求:bge-large-en-v1.5在英文MTEB任务中平均分达到63.5,高于BGE-M3的英文子项得分(61.2)。如果您的应用仅涉及英文,选它最为合适。配置门槛大约为8GB显存。
性价比之选:bge-base-en-v1.5在精度上大约下降5%,但推理速度能提升30%。如果服务器资源中等,用它来平衡效果与性能是明智之举。
3. 资源受限环境
轻量化部署:bge-small-en-v1.5的512维向量,仅需2GB显存,QPS可达1800以上。这一配置非常适合移动端或低功耗设备场景。
低成本实验:bge-m3-unsupervised这个无监督版本,可以帮助您在缺乏标注数据的情况下快速开展实验,当然,其跨语言能力会相对弱一些。
总而言之,模型选型没有绝对的“最好”,核心取决于您的语种、精度要求和预算(算力)。希望这几张表格能让您在2025年的模型选择中,心里更有底。
