北航XRAG-Ollama：基于Ollama的RAG本地化部署与实验框架_AI热点日报

北航XRAG-Ollama：基于Ollama的RAG本地化部署与实验框架

类型：热点整理2026-06-29

北航团队近期发布了名为 XRAG-Ollama 的开源框架，核心目标是让 RAG 实验与分析流程更加便捷高效。项目代码已公开，开发者可直接下载使用。简单来说，该框架实现了两大功能的融合：XRAG 提供全面的 RAG 评估与优化能力，Ollama 则带来高效的本地化推理支持。两者结合后，用户能在本地

北航团队近期发布了名为 XRAG-Ollama 的开源框架，核心目标是让 RAG 实验与分析流程更加便捷高效。项目代码已公开，开发者可直接下载使用。

简单来说，该框架实现了两大功能的融合：XRAG 提供全面的 RAG 评估与优化能力，Ollama 则带来高效的本地化推理支持。两者结合后，用户能在本地部署一套完整的 RAG 系统，兼顾运行速度与数据安全性。

北航团队发布XRAG-Ollama！基于Ollama的XRAG本地化部署与实验基准框架：让你的RAG实验与分析更加简单

XRAG 本身功能十分扎实——覆盖了 50 多项测试指标，支持四类高级 RAG 模块的对比（查询重构、先进检索、问答模型、后处理），且每个模块内均集成了多种具体实现方案。框架还提供了简洁的 Web UI 与统一数据格式，方便用户上传数据、定位失败点并进行针对性优化。目前论文与代码均已公开发布。

_{❝论文标题：XRAG: eXamining the Core - Benchmarking Foundational Component Modules in Advanced Retrieval-Augmented Generation
作者机构：北航、ZGCLAB
论文链接：https://arxiv.org/abs/2412.15529
项目链接：https://github.com/DocAILab/XRAG}

核心亮点与特色

一. XRAG-Ollama 本地化检索推理框架

XRAG：灵活且可扩展的RAG框架

XRAG 采用组件化与模块化设计思路。查询重写、高级检索、问答模型、后处理等核心组件均被拆解为可配置的独立模块。借助超过 50 个测试指标和多种先进算法，配合高效的数据预处理脚本，模型测试与验证流程得以大幅简化。用户可以轻松替换某个模块、对比效果，并据此进行针对性优化。

Ollama：高效的本地化推理引擎

Ollama 专注于本地化部署，是一款轻量级推理框架。通过硬件加速、量化压缩及注意力机制优化，它能在异构计算环境中显著加速大语言模型运行。模块化设计还支持与向量数据库（如 ChromaDB）无缝集成。对于需要快速响应且注重数据隐私的场景，Ollama 是理想选择。

XRAG-Ollama本地化检索推理框架：检索增强生成与高效推理的完美结合

将 XRAG 的检索增强能力与 Ollama 的高效推理能力相结合，带来了更精准、更快速的 RAG 体验。得益于模块化设计和本地推理优化，该框架在性能上相较传统方案有明显提升。用户能在本地轻松搭建高质量的 RAG 系统，并获取更可靠的输出结果。

二、Ollama框架：助力XRAG实现高效本地化检索推理

在 XRAG-Ollama 框架中，Ollama 扮演核心引擎角色。作为一款开源、易用的本地模型运行框架，它为 XRAG 提供了强大的本地推理能力，让检索增强生成的优势得到充分发挥。

为什么本地化部署XRAG？

降低外部风险：减少对外部服务的依赖，避免第三方不稳定或数据泄露风险。
离线可用性：不依赖网络连接，断网时也能正常运行，确保服务连续性。
数据自主管理：完全掌控数据的存储、管理与处理方式——例如将私有数据嵌入本地向量数据库，充分满足企业安全标准。
数据隐私与安全：敏感数据无需通过网络传输，始终在本地控制范围内，尤其适合处理机密信息。

为什么选择Ollama？

Ollama 轻量且可扩展，支持 DeepSeek、Llama 3.3、Phi 3、Mistral、Gemma 2 等多种模型。它能利用现代硬件加速计算，并提供模型量化支持——4-bit 量化可将 FP16 权重压缩为 4 位整数，大幅降低显存需求。这意味着普通家用电脑也能流畅运行大模型。

结合 XRAG 后，整个过程变得十分顺畅：无需复杂的环境配置和大量计算资源，部署与运行成本显著下降。本地部署还让开发者能够从原始数据清洗、向量化处理（例如通过 ChromaDB 构建私有知识库）到最终应用实现全链路定制。离线运行能力保障了服务稳定性，在涉密网络等特殊环境中尤具价值。

下面是一些可直接下载使用的模型（参考链接）：

以下给出几种本地化大模型与 GPU 的适配方案，供您本地化部署 XRAG+Ollama 时参考：

安装与使用指南

一、安装并使用Ollama

开始之前，请确保电脑已安装 Docker 或可运行 exe 文件的环境。Docker 可简化部署流程，不熟悉的话可前往官网下载对应版本。

下载Ollama

Ollama 提供多种安装方式：Docker 镜像或直接 exe 安装包。从官网或 GitHub 仓库下载对应系统的安装包即可。安装完成后，运行 ollama --version 能显示版本号，表示安装成功。接下来使用 pull 命令从模型库下载模型并开始使用。

拉取和运行模型

无论使用 Docker 还是 exe，均可通过命令行拉取并运行模型。例如：

该命令会从模型库下载 llama3.1 模型并在本地运行，为 XRAG 提供推理支持。

安装成功测试

按上述步骤操作后，XRAG 即可借助 Ollama 实现高效的本地化检索推理。

二. 安装XRAG

使用 conda 创建虚拟环境

克隆代码到本地并配置环境

尝试启动 XRAG

得到输出为：

证明环境配置基本完成，XRAG 已成功启动。初次使用可能需要填入邮箱。

三. 交互式使用XRAG-Ollama框架

启动XRAG并访问Web页面

页面上可以看到，XRAG 框架已经收集并预处理了三个基准数据集。我们还开发了统一的数据集结构，方便测试检索和生成模块的性能。您也可以上传指定格式的 json 文件，将自定义数据集加载进来。

选择其中一个数据集再点击Load Dataset，开始加载数据，以Drop为例

加载数据需要一定时间，加载完成后进入配置阶段

配置阶段主要设置生成模型和编码模型：

对于编码模型：XRAG 支持 BGE 系列及 Huggingface 库支持的 Embedding 模型。
对于生成模型：XRAG 支持多种模型，包括：

Openai 系列模型：填入正确的 Api Key 和 Api Base 即可使用。
Ollama 本地大模型：本地安装 Ollama 后，即可直接离线调用模型，充分发挥 XRAG 的能力。

接下来需要配置检索部分与提示词

该部分主要配置：

Advanced retriever 方法
Pre-retriever 方法
Postprocess 方法
Text QA Template 与 Refine Template

其中 Text QA Template 和 Refine Template 预设了问答任务所需的通用提示词。

Pre-retriever 方法在检索之前优化用户查询，提高检索质量和相关性。主要方法包括：

拓展提示：拓宽查询，丰富答案的上下文基础。
假设文档嵌入（HyDE 技术）：将原始查询转换为与索引文档更一致的形式。
验证链（CoVe）：执行验证计划，进一步提炼系统响应。

Advanced retriever 方法模块化了 LlamaIndex 实现的标准高级方法。例如 LexicalBM25 检索器根据语料库中查询词出现次数和稀有度对文档排名；Simple Fusion Retriever（SQFusion）通过生成相关子查询增强查询；RRFusion 将索引与基于 BM25 的检索器融合，同时捕获语义关系和关键字相关性；SentenceWindow Retriever 将文档解析为单个句子作为叶节点，检索时合并周围句子增加上下文；RecursiveChunk Retriever 遍历节点关系来获取节点。

Postprocess 方法用于转换和过滤返回节点，进一步提高准确性和效率。XRAG 整合了重新排名器，利用上下文理解模型增强相关性评估。我们利用 Huggingface 和 transformers 集成了（BGE-BASE）reranker，通过 Cross-Encoder 模型直接输出相似度分数。ColBERT reranker 采用多向量表示进行粒度匹配。此外，LongContextReorder 将高分节点重新定位到列表顶部和底部，加快信息识别。

确认配置后点击确定开始构建流程——这可能需要一点时间。之后，您便可以用单个问题测试 RAG 系统的效果。

来源：https://www.53ai.com/news/RAG/2025012389637.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。