首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
RAG系列:MinerU、Docling还是Unstructured?用OmniDocBench评测开源文档解析工具

RAG系列:MinerU、Docling还是Unstructured?用OmniDocBench评测开源文档解析工具

热心网友
28
转载
2025-12-15

本文将介绍一款由上海人工智能实验室开源的多源文档解析评测框架 - OmniDocBench,凭借其多样性、全面性和高质量标注数据以及配套的评测代码,是一个不错的衡量文档解析工具性能的选择。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

引言

从写 RAG 开发入门这一系列文章开始,特别是文档解析这个环节,有很多读者询问某个文档解析工具的能力怎么样,和其它工具对比如何,这表明开源社区虽然涌现出了很多的文档解析工具,但是它们在实际场景的表现到底如何,这在很多人中是没有太明确答案的。因而,面对众多工具的选择,我们期望能有一个统一的基准来评估其实际效果,而且对于大部分人来说是需要开箱即用的。

本文我将介绍一款由上海人工智能实验室开源的多源文档解析评测框架 -OmniDocBench[1],凭借其多样性、全面性和高质量标注数据以及配套的评测代码,是一个不错的衡量文档解析工具性能的选择。

目前OmniDocBench已被CVPR2025接受!CVPR2025是计算机视觉与模式识别领域的顶级国际学术会议,被誉为计算机视觉领域的“三大顶会”之一(与ICCV、ECCV并列)。

OmniDocBench论文[2]:

https://arxiv.org/html/2412.07626v1

image.webp

高质量基准测试集

OpenDataLab下载地址:https://opendatalab.com/OpenDataLab/OmniDocBench

Hugging Face下载地址:https://huggingface.co/datasets/opendatalab/OmniDocBench

高质量基准测试集是OmniDocBench的核心价值,其特点主要包括:

文档类型多样:该评测集涉及 981 个 PDF 页面,涵盖9 种文档类型(如学术文献、财报、报纸、教材、手写笔记等)、4 种排版类型(表格密集型、图文混合型、纯文本型等)和3 种语言类型(中文、英文、混合语种);标注信息丰富:包含 15 个 block 级别(文本段落、标题、表格等,总量超过 20k)和 4 个 Span 级别(文本行、行内公式、角标等,总量超过 80k)的文档元素的定位信息,以及每个元素区域的识别结果(文本 Text 标注,公式 LaTeX 标注,表格包含 LaTeX 和 HTML 两种类型的标注)。OmniDocBench 还提供了各个文档组件的阅读顺序的标注。除此之外,在页面和 block 级别还包含多种属性标签,标注了 5 种页面属性标签、3 种文本属性标签和 6 种表格属性标签;标注质量高:经过人工筛选、智能标注、人工标注及全量专家质检和大模型质检,数据质量较高。

image.webp

数据展示

支持多种衡量指标

OmniDocBench目前支持的衡量指标包括:

1.Normalized Edit Distance(归一化编辑距离):这个指标计算两个字符串之间的最小编辑操作次数(包括插入、删除、替换),并将这个距离进行归一化处理,通常用于衡量两个字符串或文本序列之间的相似度。归一化处理是为了让结果在 0 到 1 之间,便于比较;

2.BLEU(双语评价替补/Bilingual Evaluation Understudy):BLEU 是机器翻译领域中常用的自动评估指标,它通过比较候选译文和一组参考译文之间的 n-gram 重叠程度来计算得分,以此衡量机器翻译的质量。BLEU 分数越高,表示机器翻译的结果越接近人工翻译;

3.METEOR(基于明确排序的翻译评估/Metric for Evaluation of Translation with Explicit ORdering):METEOR 是一个更加复杂的翻译质量评估指标,它不仅考虑了单词精确匹配,还包括词干匹配、同义词匹配等,并且会根据词序差异对得分进行调整。因此,它比 BLEU 更能反映句子间的语义相似性;

4.TEDS(基于树编辑距离的表格相似度/Tree-based Edit Distance for Tables):TEDS 是一种专门用来评估表格结构相似度的指标。它将表格转换为树形结构,然后计算两棵树之间的编辑距离,以此来衡量表格结构上的相似度。这种指标特别适用于表格解析或者表格生成任务中的准确性评估;

5.COCODet (mAP, mAR, etc.):COCODet 指的是使用在 COCO 数据集上定义的一系列目标检测性能评估指标,主要包括:

mAP(平均精度均值/Mean Average Precision):衡量模型在不同 IoU(交并比)阈值下的平均精度;mAR(平均召回率均值/Mean Average Recall):衡量模型在不同 IoU 阈值下的平均召回率。

每个指标都有其特定的应用场景和优势,你可根据具体的应用需求和上下文配置合适的衡量指标。

开箱即用的评测方法

OmniDocBench开发了一套基于文档组件拆分和匹配的评测方法,对文本、表格、公式、阅读顺序这四大模块分别提供了对应的指标计算,评测结果除了整体的精度结果以外,还提供了分页面以及分属性的精细化评测结果,精准定位模型文档解析的痛点问题。

image.webp

下载项目

git clone https://github.com/opendatalab/OmniDocBench.git

环境配置和运行

conda create -n omnidocbench pythnotallow=3.10conda activate omnidocbenchpip install -r requirements.txt

下载评测集

OpenDataLab下载地址:https://opendatalab.com/OpenDataLab/OmniDocBench

Hugging Face下载地址:https://huggingface.co/datasets/opendatalab/OmniDocBench

评测集的文件夹结构如下:

OmniDocBench/├── images/ // Image files│ ├── xxx.webp│ ├── ...├── pdfs/ // Same page as images but in PDF format│ ├── xxx.pdf│ ├── ...├── OmniDocBench.json // OmniDocBench ground truth

评测配置

所有的评测的输入都是通过config文件进行配置的,在configs路径下提供了各个任务的模板。

比如端到端评测,你只需要在end2end.yaml文件中的ground_truth的data_path中提供 OmniDocBench.json的路径,在prediction的data_path中提供包含推理结果的文件夹路径,如下:

# -----以下是需要修改的部分 -----dataset: dataset_name: end2end_dataset ground_truth: data_path: ./OmniDocBench.json prediction: data_path: path/to/your/model/result/dir

配置好config文件后,只需要将config文件作为参数传入,运行以下命令即可进行评测:

python pdf_validation.py --config configs/end2end.yaml

对开源工具的评测

可以端对端评测综合能力,也可以分项(文本、公式、表格、布局)评测。

下面各个开源工具/模型的评测结果均是基于OmniDocBench的真实评测,可直接作为选择的依据。

端到端评测

端到端评测是对模型在PDF页面内容解析上的精度作出的评测。以模型输出的对整个PDF页面解析结果的Markdown作为Prediction。

image.webp

公式识别评测

OmniDocBench包含每个PDF页面的公式的bounding box信息以及对应的公式识别标注(包括行间公式equation_isolated和行内公式equation_inline),因此可以作为公式识别评测的benchmark。

image.webp

文字OCR评测

OmniDocBench包含每个PDF页面的所有文字的bounding box信息以及对应的文字识别标注(包含block_level的标注和span_level的标注),因此可以作为OCR评测的benchmark。

image.webp

表格识别评测

OmniDocBench包含每个PDF页面的公式的bounding box信息以及对应的表格识别标注(包括HTML和LaTex两种格式),因此可以作为表格识别评测的benchmark。

image.webp

布局检测

OmniDocBench包含每个PDF页面的所有文档组件的bounding box信息,因此可以作为布局检测任务评测的benchmark。

image.webp

结语

本文给大家介绍了一款由上海人工智能实验室开源的多源文档解析评测框架-OmniDocBench,希望大家通过该评测框架,可以选出适合自己实际业务场景的文档解析工具。

引用链接

[1]OmniDocBench:https://github.com/opendatalab/OmniDocBench

[2]OmniDocBench论文:https://arxiv.org/html/2412.07626v1

来源:https://www.51cto.com/article/820651.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

斯坦福团队新研究:合成数据助力RAG训练效果反超,成本大降
科技数码
斯坦福团队新研究:合成数据助力RAG训练效果反超,成本大降

在大模型商业化落地的进程中,医疗、金融等高精尖垂直领域,始终面临着一个核心难题:既要严控回答准确率、杜绝AI幻觉,又要控制部署成本,适配更多实际应用场景。长期以来,业内早已形成定论,检索增强生成(R

热心网友
03.28
RAG与智能体能破解AI幻觉难题吗?实测解析
AI
RAG与智能体能破解AI幻觉难题吗?实测解析

AI幻觉这个问题,通过RAG加智能体这个方向,找到了一个有效的解决路径。它不能保证百分百消除幻觉,但至少让AI变得可查证、可执行。对企业来说,这已经足够将AI从实验性应用推进到实际生产环境。 AI圈

热心网友
03.27
DaPT双流框架:突破多语言RAG的杀手级技术详解
AI
DaPT双流框架:突破多语言RAG的杀手级技术详解

DaPT框架通过创新的双路径并行推理机制,成功解决了多语言多跳问答中的核心挑战。它不仅构建了首个系统的多语言多跳问答评估基准,还提出了一种能有效利用LLM英文理解能力同时保留源语言语义的实用方法。

热心网友
03.27
RAG归因最新研究:破除幻觉并追溯知识出处
AI
RAG归因最新研究:破除幻觉并追溯知识出处

大模型+检索=万无一失?现实是:检索到 2019 年的旧新闻,回答“现任总统”仍是特朗普,模型把“可能致癌”说成“肯定致癌”,自信爆棚,用户让翻译,它却开始写小作文…… Why:RAG 也“满嘴跑火

热心网友
02.05
RAG精度跃迁:高效混合检索架构解决召回不准难题
AI
RAG精度跃迁:高效混合检索架构解决召回不准难题

让 LLM 先生成一个“假设的完美答案”,然后用这个答案去检索文档,而不是用问题去检索。这在跨语种或语义鸿沟大时非常有效。 1 预处理层:查询理解与增强核心痛点:用户问题往往模糊、缺失关键词,直接

热心网友
02.05

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《三国:天下归心》香香连击队成员推荐
游戏攻略
《三国:天下归心》香香连击队成员推荐

《三国:天下归心》香香连击队全面解析:后期最强阵容搭配攻略 在策略手游《三国:天下归心》中,如何打造一支能够主宰战局的后期王牌队伍?本篇将为您深入剖析以孙尚香为核心的“香香连击队”终极搭配方案。该阵容由孙尚香、蔡文姬、貂蝉三位核心武将构成,其独特之处在于通过蔡文姬与貂蝉的完美辅助联动,极大化触发孙尚

热心网友
04.03
爱奇艺极速版如何查看营业执照
手机教程
爱奇艺极速版如何查看营业执照

爱奇艺极速版营业执照信息查询全攻略 在使用爱奇艺极速版应用时,无论是出于消费保障、商务合作考量,还是日常维权需要,核实其背后的实际运营主体与工商信息都是十分必要的环节。查询其营业执照信息有着明确且可靠的操作路径,可以帮助用户清晰了解服务提供方的合法资质。 官方权威途径:国家企业信用信息公示系统查询

热心网友
04.03
红色沙漠堕落之神任务闪电柱解谜答案一览
游戏攻略
红色沙漠堕落之神任务闪电柱解谜答案一览

在《红色沙漠》的“堕落之神”任务中,古代闪电装置的解谜环节是挑战巨化泰坦BOSS前的核心难点。整个电塔谜题由五座塔构成,其核心在于正确的激活与连接顺序。为了让各位冒险家能快速通关,本篇攻略将详细解析闪电塔的正确操作步骤。咱们这就开始,一步步点亮所有的电塔。 《红色沙漠》堕落之神任务:闪电塔解谜全流程

热心网友
04.03
洛克王国世界炽心勇狮图鉴
游戏攻略
洛克王国世界炽心勇狮图鉴

洛克王国炽心勇狮全面解析:技能、获得方法与实战指南 在《洛克王国》的众多宠物中,炽心勇狮以其传奇守护者的身份和强大的火焰力量而备受瞩目。作为火系宠物的代表之一,它的核心特征在于那颗永不熄灭的火焰心脏,这不仅是它力量的象征,更是其所有强大技能的能量源泉。由炽心勇狮喷发出的烈焰,拥有随着战斗进程而不断增

热心网友
04.03
洛克王国世界公平鸽图鉴
游戏攻略
洛克王国世界公平鸽图鉴

洛克王国公平鸽图鉴详解:裁判型宠物的属性技能与获取攻略 在洛克王国的众多宠物当中,公平鸽以其鲜明的裁判官形象与独特的对战定位,成为了许多玩家关注的对象。这只严格恪守自身准则的宠物,完美诠释了何为“公正严明”。它的行事守则堪称一套独特的生存哲学:执着于介入每一场争执,绝不因任何原因延误“出庭”,坚持做

热心网友
04.03