游乐游手机版
首页/AI热点日报/热点详情

Ubuntu本地部署MinerU完成文档解析

类型:热点整理2026-06-07
从实际部署经验来看,在Ubuntu系统上完成MinerU文档解析工具的安装配置,整体流程并不复杂。主要概括为三大步骤:先调整系统环境,接着安装MinerU本体,最后执行功能验证测试。 下面我们将每一步详细拆解,确保清晰易懂。好,直接开始操作。 1 系统环境配置 (1)检查CUDA环境和GPU状态 首

从实际部署经验来看,在Ubuntu系统上完成MinerU文档解析工具的安装配置,整体流程并不复杂。主要概括为三大步骤:先调整系统环境,接着安装MinerU本体,最后执行功能验证测试。

下面我们将每一步详细拆解,确保清晰易懂。好,直接开始操作。

1.系统环境配置

(1)检查CUDA环境和GPU状态

首先查看当前的CUDA版本是否符合要求。MinerU需要CUDA 11.8及以上版本,这一点需提前确认。

nvcc --version

如果命令无输出或版本过低,建议安装CUDA工具包:

sudo apt install nvidia-cuda-toolkit

接着使用nvidia-smi查看GPU实时状态和显存信息。该命令显示的CUDA版本代表当前驱动所支持的最高版本:

nvidia-smi

(2)创建虚拟环境,避免依赖冲突

开始前,先确认当前Python版本:

python --version

然后新建一个专用虚拟环境,确保环境干净、依赖互不干扰:

conda create -n mineru python=3.12.4
conda activate mineru

2.安装MinerU

(1)安装包管理工具

先安装uv这个快速包管理工具,后续均使用它进行安装,可显著提升速度:

pip install uv

(2)安装完整版本的MinerU

推荐使用阿里云镜像站,下载更稳定:

uv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple

(3)安装PyTorch的GPU版本

版本匹配是关键环节。先查看系统中CUDA的实际版本:

nvcc -V

假设输出显示CUDA 12.1,则选择适配的PyTorch版本(CUDA 12.1对12.0向下兼容),安装命令如下:

pip install torch==2.5.0 torchvision==0.20.0 torchaudio==2.5.0 --index-url https://download.pytorch.org/whl/cu121

如果将来升级到CUDA 12.6,对应的安装命令为:

pip install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0 --index-url https://download.pytorch.org/whl/cu126

3.下载模型文件

模型是文档解析的核心,需要预先下载。执行以下命令,将自动从ModelScope下载所有模型:

mineru-models-download --model_type all

4.功能测试

假设你的PDF文件存放在 /home/mac/wendang/pdfs,解析结果输出到 /home/mac/wendang/test_output

(1)pipeline模式(速度快)

该模式将表格、公式、版面等识别任务拆分为多个小模型并行处理。NVIDIA显卡可启用GPU加速。测试单个PDF:

mineru -p ./pdfs/demo1.pdf -o test_output/ --backend pipeline --device cuda

(2)vlm模式(精度高,速度慢)

通过视觉大模型进行识别,准确度更高,但消耗时间也相应更长:

mineru -p ./pdfs/demo1.pdf -o test_output/ --backend vlm-transformers --device cuda

(3)批量处理测试

一次处理整个文件夹内的PDF,batch-size 8表示同时处理8个文档:

mineru -p ./pdfs -o test_output/ --backend pipeline --batch-size 8

5.启动web界面

首先确保虚拟环境已激活:

conda activate mineru

然后启动Gradio界面(绑定所有网络接口,默认端口7860):

mineru-gradio --server-name 0.0.0.0 --server-port 7860

至此,你就可以在浏览器中上传PDF并查看解析结果了。整个部署流程走下来,大约只需十几分钟。

来源:https://www.53ai.com/news/neirongchuangzuo/2025102843958.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。