游乐游手机版
首页/AI教程/文章详情

DeepSeek-OCR 使用教程手把手教你轻松上手

时间:2026-06-13 17:26
DeepSeek-OCR 作为一款先进的光学字符识别工具,能够高效准确地将图片和 PDF 文档转换为结构化的文本与 Markdown 格式。本文将提供一份详尽的从零开始指南,涵盖环境搭建、模型配置及使用技巧,帮助您快速上手。 开源项目地址:https: github com deepseek-ai

DeepSeek-OCR 作为一款先进的光学字符识别工具,能够高效准确地将图片和 PDF 文档转换为结构化的文本与 Markdown 格式。本文将提供一份详尽的从零开始指南,涵盖环境搭建、模型配置及使用技巧,帮助您快速上手。


开源项目地址:https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

DeepSeek-OCR 如何使用?分步教程指南

第一步:环境准备

系统要求

  • 操作系统:支持 Linux、Windows 或 macOS
  • Python 版本:推荐使用 3.12.9
  • CUDA 版本:需 11.8 或更高版本(GPU运行必需)
  • PyTorch 版本:建议 2.6.0

硬件要求

  • 推荐 GPU:A100-40G 或性能相近的显卡
  • 内存:建议不少于 16GB RAM
  • 存储空间:至少预留 10GB 可用空间用于模型和依赖

第二步:下载和克隆项目

克隆 GitHub 仓库

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR

查看项目结构

克隆后,项目主要包含以下目录与文件:

  • DeepSeek-OCR-master/ – 核心源代码目录
  • assets/ – 示例图片等资源文件
  • requirements.txt – Python 依赖包清单
  • README.md – 项目详细说明文档

DeepSeek-OCR 如何使用?分步教程指南

第三步:环境配置

创建 Conda 环境

conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr

安装 PyTorch

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118

安装 vLLM(推荐)

# 下载并安装vLLM-0.8.5 whl文件
pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl

安装其他依赖

pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation

第四步:模型下载和配置

自动下载模型

首次运行 DeepSeek-OCR 时,程序会自动从 Hugging Face 仓库下载所需模型文件:

model_name = 'deepseek-ai/DeepSeek-OCR'

配置文件设置

根据您的需求,编辑配置文件 DeepSeek-OCR-master/DeepSeek-OCR-vllm/config.py,主要调整以下参数:

  • 输入路径(INPUT_PATH):指定待处理文件的位置
  • 输出路径(OUTPUT_PATH):指定结果文件的保存目录
  • 其他相关参数:如批次大小、分辨率等,可按实际需求调整

第五步:使用方法详解

使用 vLLM 进行推理(推荐)

方法一:处理单张图像

cd DeepSeek-OCR-master/DeepSeek-OCR-vllm
python run_dpsk_ocr_image.py

方法二:处理 PDF 文档

python run_dpsk_ocr_pdf.py

注:使用 A100-40G GPU 处理 PDF 时,推理速度可达到约 2500 tokens/s。

方法三:批量评估

python run_dpsk_ocr_eval_batch.py

使用 Transformers 进行推理

创建 Python 脚本

from transformers import AutoModel, AutoTokenizer
import torch
import os

# 设置GPU
os.environ["CUDA_VISIBLE_DEVICES"] = '0'

# 加载模型和分词器
model_name = 'deepseek-ai/DeepSeek-OCR'
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name,
    _attn_implementation='flash_attention_2',
    trust_remote_code=True,
    use_safetensors=True)

# 设置模型参数
model = model.eval().cuda().to(torch.bfloat16)

# 定义提示词和图像路径
prompt = "<|grounding|>Convert the document to markdown."
image_file = 'your_image.jpg'
output_path = 'your/output/dir'

# 执行推理
res = model.infer(tokenizer,
    prompt=prompt,
    image_file=image_file,
    output_path=output_path,
    base_size=1024,
    image_size=640,
    crop_mode=True,
    sa ve_results=True,
    test_compress=True)

或使用现成脚本

cd DeepSeek-OCR-master/DeepSeek-OCR-hf
python run_dpsk_ocr.py

第六步:支持的模式和配置

原生分辨率模式

  • Tiny: 512×512(消耗 64 个视觉 tokens)
  • Small: 640×640(消耗 100 个视觉 tokens)
  • Base: 1024×1024(消耗 256 个视觉 tokens)
  • Large: 1280×1280(消耗 400 个视觉 tokens)

动态分辨率模式

  • Gundam: n×640×640 + 1×1024×1024(混合分辨率处理)

第七步:提示词模板

为提高效率,以下是针对不同 OCR 场景的常用提示词模板:

# 文档转换(保留格式)
prompt = "\n<|grounding|>Convert the document to markdown."

# 通用图片文字识别
prompt = "\n<|grounding|>OCR this image."

# 无格式纯文本提取
prompt = "\nFree OCR."

# 图表数据解析
prompt = "\nParse the figure."

# 图像内容详细描述
prompt = "\nDescribe this image in detail."

# 特定文本定位
prompt = "\nLocate <|ref|>目标文字<|/ref|> in the image."

第八步:常见问题解决

安装问题

安装 vLLM 时若出现 transformers 版本警告:

vllm 0.8.5+cu118 requires transformers>=4.51.1

此警告通常不影响核心功能,可暂时忽略,或尝试升级 transformers 包。

内存不足

  • 在配置文件中降低 batch_size 参数。
  • 选择 Tiny 或 Small 等较小的分辨率模式。
  • 清理系统内存,关闭非必要的应用程序。

GPU 显存不足

  • 考虑使用量化版本的模型以减少显存占用。
  • 减少同时处理的文件数量(并发数)。
  • 适当调小输入图像的尺寸。

第九步:性能优化建议

硬件优化

  • 使用高性能 GPU,如 NVIDIA A100、H100。
  • 确保 GPU 显存容量满足模型运行需求。
  • 采用固态硬盘(SSD)以加速文件读写。

软件优化

  • 优先使用 vLLM 推理后端,相较于 Transformers 通常有更好的吞吐性能。
  • 确保启用 Flash Attention 2 以加速注意力计算。
  • 根据任务复杂度(如文档版式复杂性)选择最合适的分辨率模式,平衡速度与精度。

总结

遵循本教程,您将能够:

  1. 成功完成 DeepSeek-OCR 的完整环境部署与配置。
  2. 掌握使用 vLLM 或 Transformers 进行图像与 PDF 文字识别的基本操作。
  3. 理解不同分辨率模式的应用场景与选择依据。
  4. 具备诊断和解决安装、内存、显存等常见问题的能力。
  5. 了解通过硬件选型和软件设置进一步提升识别效率的优化方向。

如果在实践过程中遇到其他未涵盖的问题,建议查阅项目 GitHub 仓库的 Issues 讨论区或官方技术文档,通常能找到相应的解决方案。

来源:https://apifox.com/apiskills/hwo-to-use-deepseek-ocr/
上一篇Atom 与 VSCode 全方位对比哪款编辑器更胜一筹 下一篇推荐8款实用AI编程助手工具
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网