游乐游手机版
首页/AI热点日报/热点详情

北航XRAG-Ollama:基于Ollama的RAG本地化部署与实验框架

类型:热点整理2026-06-29
北航团队近期发布了名为 XRAG-Ollama 的开源框架,核心目标是让 RAG 实验与分析流程更加便捷高效。项目代码已公开,开发者可直接下载使用。 简单来说,该框架实现了两大功能的融合:XRAG 提供全面的 RAG 评估与优化能力,Ollama 则带来高效的本地化推理支持。两者结合后,用户能在本地

北航团队近期发布了名为 XRAG-Ollama 的开源框架,核心目标是让 RAG 实验与分析流程更加便捷高效。项目代码已公开,开发者可直接下载使用。

简单来说,该框架实现了两大功能的融合:XRAG 提供全面的 RAG 评估与优化能力,Ollama 则带来高效的本地化推理支持。两者结合后,用户能在本地部署一套完整的 RAG 系统,兼顾运行速度与数据安全性。

北航团队发布XRAG-Ollama! 基于Ollama的XRAG本地化部署与实验基准框架:让你的RAG实验与分析更加简单

XRAG 本身功能十分扎实——覆盖了 50 多项测试指标,支持四类高级 RAG 模块的对比(查询重构、先进检索、问答模型、后处理),且每个模块内均集成了多种具体实现方案。框架还提供了简洁的 Web UI 与统一数据格式,方便用户上传数据、定位失败点并进行针对性优化。目前论文与代码均已公开发布。

论文标题:XRAG: eXamining the Core - Benchmarking Foundational Component Modules in Advanced Retrieval-Augmented Generation

作者机构:北航、ZGCLAB

论文链接:https://arxiv.org/abs/2412.15529

项目链接:https://github.com/DocAILab/XRAG

核心亮点与特色

一. XRAG-Ollama 本地化检索推理框架

XRAG:灵活且可扩展的RAG框架

XRAG 采用组件化与模块化设计思路。查询重写、高级检索、问答模型、后处理等核心组件均被拆解为可配置的独立模块。借助超过 50 个测试指标和多种先进算法,配合高效的数据预处理脚本,模型测试与验证流程得以大幅简化。用户可以轻松替换某个模块、对比效果,并据此进行针对性优化。

Ollama:高效的本地化推理引擎

Ollama 专注于本地化部署,是一款轻量级推理框架。通过硬件加速、量化压缩及注意力机制优化,它能在异构计算环境中显著加速大语言模型运行。模块化设计还支持与向量数据库(如 ChromaDB)无缝集成。对于需要快速响应且注重数据隐私的场景,Ollama 是理想选择。

XRAG-Ollama本地化检索推理框架:检索增强生成与高效推理的完美结合

将 XRAG 的检索增强能力与 Ollama 的高效推理能力相结合,带来了更精准、更快速的 RAG 体验。得益于模块化设计和本地推理优化,该框架在性能上相较传统方案有明显提升。用户能在本地轻松搭建高质量的 RAG 系统,并获取更可靠的输出结果。

二、Ollama框架:助力XRAG实现高效本地化检索推理

在 XRAG-Ollama 框架中,Ollama 扮演核心引擎角色。作为一款开源、易用的本地模型运行框架,它为 XRAG 提供了强大的本地推理能力,让检索增强生成的优势得到充分发挥。

为什么本地化部署XRAG?

  • 降低外部风险:减少对外部服务的依赖,避免第三方不稳定或数据泄露风险。
  • 离线可用性:不依赖网络连接,断网时也能正常运行,确保服务连续性。
  • 数据自主管理:完全掌控数据的存储、管理与处理方式——例如将私有数据嵌入本地向量数据库,充分满足企业安全标准。
  • 数据隐私与安全:敏感数据无需通过网络传输,始终在本地控制范围内,尤其适合处理机密信息。

为什么选择Ollama?

Ollama 轻量且可扩展,支持 DeepSeek、Llama 3.3、Phi 3、Mistral、Gemma 2 等多种模型。它能利用现代硬件加速计算,并提供模型量化支持——4-bit 量化可将 FP16 权重压缩为 4 位整数,大幅降低显存需求。这意味着普通家用电脑也能流畅运行大模型。

结合 XRAG 后,整个过程变得十分顺畅:无需复杂的环境配置和大量计算资源,部署与运行成本显著下降。本地部署还让开发者能够从原始数据清洗、向量化处理(例如通过 ChromaDB 构建私有知识库)到最终应用实现全链路定制。离线运行能力保障了服务稳定性,在涉密网络等特殊环境中尤具价值。

下面是一些可直接下载使用的模型(参考链接):

以下给出几种本地化大模型与 GPU 的适配方案,供您本地化部署 XRAG+Ollama 时参考:

安装与使用指南

一、安装并使用Ollama

开始之前,请确保电脑已安装 Docker 或可运行 exe 文件的环境。Docker 可简化部署流程,不熟悉的话可前往官网下载对应版本。

下载Ollama

Ollama 提供多种安装方式:Docker 镜像或直接 exe 安装包。从官网或 GitHub 仓库下载对应系统的安装包即可。安装完成后,运行 ollama --version 能显示版本号,表示安装成功。接下来使用 pull 命令从模型库下载模型并开始使用。

拉取和运行模型

无论使用 Docker 还是 exe,均可通过命令行拉取并运行模型。例如:

该命令会从模型库下载 llama3.1 模型并在本地运行,为 XRAG 提供推理支持。

安装成功测试

按上述步骤操作后,XRAG 即可借助 Ollama 实现高效的本地化检索推理。

二. 安装XRAG

  • 使用 conda 创建虚拟环境
  • 克隆代码到本地并配置环境
  • 尝试启动 XRAG
  • 得到输出为:

证明环境配置基本完成,XRAG 已成功启动。初次使用可能需要填入邮箱。

三. 交互式使用XRAG-Ollama框架

启动XRAG并访问Web页面

页面上可以看到,XRAG 框架已经收集并预处理了三个基准数据集。我们还开发了统一的数据集结构,方便测试检索和生成模块的性能。您也可以上传指定格式的 json 文件,将自定义数据集加载进来。

选择其中一个数据集再点击Load Dataset,开始加载数据,以Drop为例

加载数据需要一定时间,加载完成后进入配置阶段

配置阶段主要设置生成模型和编码模型:

  • 对于编码模型:XRAG 支持 BGE 系列及 Huggingface 库支持的 Embedding 模型。
  • 对于生成模型:XRAG 支持多种模型,包括:
    • Openai 系列模型:填入正确的 Api Key 和 Api Base 即可使用。
    • Ollama 本地大模型:本地安装 Ollama 后,即可直接离线调用模型,充分发挥 XRAG 的能力。

接下来需要配置检索部分与提示词

该部分主要配置:

  • Advanced retriever 方法
  • Pre-retriever 方法
  • Postprocess 方法
  • Text QA Template 与 Refine Template

其中 Text QA Template 和 Refine Template 预设了问答任务所需的通用提示词。

Pre-retriever 方法在检索之前优化用户查询,提高检索质量和相关性。主要方法包括:

  • 拓展提示:拓宽查询,丰富答案的上下文基础。
  • 假设文档嵌入(HyDE 技术):将原始查询转换为与索引文档更一致的形式。
  • 验证链(CoVe):执行验证计划,进一步提炼系统响应。

Advanced retriever 方法模块化了 LlamaIndex 实现的标准高级方法。例如 LexicalBM25 检索器根据语料库中查询词出现次数和稀有度对文档排名;Simple Fusion Retriever(SQFusion)通过生成相关子查询增强查询;RRFusion 将索引与基于 BM25 的检索器融合,同时捕获语义关系和关键字相关性;SentenceWindow Retriever 将文档解析为单个句子作为叶节点,检索时合并周围句子增加上下文;RecursiveChunk Retriever 遍历节点关系来获取节点。

Postprocess 方法用于转换和过滤返回节点,进一步提高准确性和效率。XRAG 整合了重新排名器,利用上下文理解模型增强相关性评估。我们利用 Huggingface 和 transformers 集成了(BGE-BASE)reranker,通过 Cross-Encoder 模型直接输出相似度分数。ColBERT reranker 采用多向量表示进行粒度匹配。此外,LongContextReorder 将高分节点重新定位到列表顶部和底部,加快信息识别。

确认配置后点击确定开始构建流程——这可能需要一点时间。之后,您便可以用单个问题测试 RAG 系统的效果。

来源:https://www.53ai.com/news/RAG/2025012389637.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。