【飞桨打比赛】同花顺-文档图片表格结构识别算法官方baseline迁移版
技术方向:表格文字检测,表格结构重建 使用了Paddlex的detection; 引用了Paddle segmentation 的Unet结构,自定义训练 同花顺-文档图片表格结构识别算法方。

1、比赛介绍
整体背景
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
表格作为一种高效的数据组织与展现方法被广泛应用,已成为各类文档中最常见的页面对象。目前很大一部分文档以图片的形式存在,无法直接获取表格信息。人工还原表格既费时又容易出错,因此如何自动并准确地从文档图片中识别出表格成为一个亟待解决的问题。但由于表格大小、种类与样式的复杂多样(例如表格中存在不同的背景填充、不同的行列合并方法、不同的分割线类型等),导致表格识别一直是文档识别领域的研究难点。
本赛题专注于表格结构识别,为选手提供了已标注的表格图片数据,需要选手通过深度学习的方法,识别出表格结构并输出。
赛题任务选手需要训练模型并准确还原出表格结构信息。
训练数据主要包括原始图片及对应的ground truth,ground truth内包含表格位置信息和单元格信息。选手可以直接使用ground truth内的表格位置信息,也可以使用自己预测的表格位置信息。在得到表格区域的基础上,选手需要将表格的结构识别出来,输出单元格的行列结构信息及单元格内的文字位置信息。
数据说明数据量
640张训练集、106张测试集A、108张测试集B及其对应的ground truth(xml文件)
数据来源
各大公司财报的扫描件图片、评级报告图片
ground truth字段说明:
table:表格,包含表格位置信息及该表格内的单元格信息。points字段为“x0, y0 x1, y1 x2,y2 x3, y3”格式,表示表格区域的四个角点,角点顺序不固定
cell:单元格,包含行列信息及位置信息
start_col、end_col、start_row、end_row:单元格所处的行列信息
points:单元格内文本的位置信息,格式为“x0, y0 x1, y1 x2,y2 x3, y3”,表示文本区域的四个角点,角点顺序不固定;当单元格内存在多行文本时,取所有文本的最小外包矩形作为文本区域
ground truth示例如下:
a. 总体概括评测标准
单元格F1b. 评价指标计算流程
计算预测的表格内的单元格的相邻关系,假设所有预测的表格内的单元格相邻关系的总数为S参考论文:
《A Methodology for Evaluating Algorithms for Table Understanding in PDF Documents》
将预测的表格区域与ground truth中的表格区域进行映射,取IOU大于0.8的表格区域作为预测正确的表格区域,其余作为预测错误的表格区域
在正确的表格区域内,将预测的单元格内的文本区域与ground truth中的单元格文本区域进行映射,取IOU的阈值为0.5和0.6;当单元格内存在多行文本时,所有文本的最小外包矩形作为文本区域,参考下图:

2、最新baseline介绍
导航链接
思路简介:分为两个模型,一个为文字定位模型,另一个是表格结构分析模型。文字定位方案是CRAFT: Character-Region Awareness For Text detection,论文,采用VGG16做文字定位。原方案中直接拿来用,全图检测文字,在此不做过多描述。表格可以通过xml文件获取边界框,不需要检测表格结构分析基于unet语义分割模型来做,生成两个图层,分别是表格的横向线和纵向线(有线表格和无线表格都按照有线处理)。拼接进行展示,从左到右依次是横向线、纵向线、表格图像,效果如下:


3、比赛解题思路的探讨
表格结构化这一任务,在研究领域依然充满了挑战,并未出现一个算法或一套框架一统江湖。结合本比赛,简要进行难点剖析,提出改进思路 当前所有表格结构化方法大体都可分为三步走:
提取行列特征提取文字内容重构表格结构
在此框架下,具有不同的技术方案,例如:
百度OCR表格识别的技术方案:单行文本检测-DB,单行文本识别-CRNN,表格结构和cell坐标预测-RARE

海康威视OCR/表格识别方案: 图像经过CNN提取特征后分成两路,一路类似于Mask RCNN的形式用来检测非空单元格叫LPMA,另一个头全局学习整张图上的非空单元格的水平和垂直对齐的soft mask叫GPMA

腾讯的解决方案:Unet做语义分割,线段合并,矫正等后处理,文字识别,文字定位,对齐

GFTE:Graph-based Financial Table Extraction图神经网络方案:单元格上构建无向图G = 
本解决方案属于基于语义分割的模式进行预测
4、赛题难点分析与应对策略
数据标签获取通过手绘的方式来获取;优点:准确;缺点:耗时 1300+表格,标注需30小时+
代码方式获取,例如最新文档中mask逻辑:(1)获取未被合并的单元格,提取其中文字坐标框
(2)将每一列所有坐标框形成一个集合,求其外接矩形
(3)所得矩形之间的区域,划分为表格线
优点:快速;缺点:对错切、错标注、整行整列合并的情况,无法正常生成标注,如下图第一列漏标:
无法得到优质的样本库,漏标多,仅能处理无单元格合并的简单表格
语义分割网络与本任务目标存在差距表格结构化,目标是得到包含行列的结构化数据,而语义分割的结果是基于像素的栅格数据,是非结构化的,语义分割的结果转换为表格结构存在着语义鸿沟,简单的形状提取难以很好的完成此任务。例如下图:


在识别情况尚可的情况下,左侧小块的误识别区域将对整个表格结构产生极大的影像(五列变为六列),而这种情况是无法被处理的
应对策略:
人工数据清洗对数据进行可视化后人工判读,花费三小时,清洗出以下有问题的数据:

先把简单的表格找出来,形成高质量的子样本库,训练模型1
模型1预测复杂结构的表格,生成伪标签,与原代码生成标签叠加,补漏
采用二次识别的模式剔除误识别区域;或探索图神经网络在表格误识别中的应用本人才疏学浅,GCN没做过=。=
5、本项目所做的工作
替换CRAFT,使用ppyplov2定位文字自定义数据集,paddlesegAPI实现Une-tattention实现语义分割,代替pytorch版本数据预处理等工作,可完整的实现从数据到提交文件的全流程6、代码实现
准备环境、数据、训练预测等代码 代码简洁,已配置好,一键运行
In [ ]# 解压数据集,data/data133551/data.zip为原版数据集,已划分为训练集验证集,后期训练可再调整!unzip -oq data/data133551/data.zip -d work/# data/data133260/data.zip为预处理数据集,只有表格数据,已转化为icdar格式,可直接用paddle——ocr套件训练登录后复制In [ ]
# 安装环境!pip install paddleseg!pip install paddlex%cd work/登录后复制In [ ]
# 训练分割模型!python seg_train.py登录后复制
预测生成提交结果
使用预训练的目标检测模型与分割模型完成预测(训练过程未包含在项目)
预训练模型目标检测效果



所有步骤都集成在pre.py中
运行pre.py,结果保存在opt中
相关攻略
Pywinrm 通过Windows远程管理(WinRM)协议,让Python能够像操作本地一样执行远程Windows命令,真正打通了跨平台管理的最后一公里。 在混合IT环境中,Linux机器管理Wi
早些时候,聊过 Python 领域那场惊心动魄的供应链攻击。当时我就感叹,虽然我们 JavaScript 开发者对这类套路烂熟于心,但亲眼目睹这种规模的“投毒”还是头一次。 早些时候,聊过 Pyth
Toga 是 BeeWare 家族的核心成员,号称“写一次,跑遍所有平台”,而且用的是系统原生控件,不是那种一看就是网页套壳的界面 。 写了这么多年 Python,你是不是也想过:要是能一套代码跑
异常处理的核心:让错误在正确的地方被有效处理。正确的地方,就是别在底层就把异常吞了,也别在顶层还抛裸奔的 Exception。 异常处理写得好,半夜不用起来改 bug。1 你是不是也这么干过?tr
1 Skills机制概述 提起OpenClaw的Skills机制,不少人可能会把它想象成传统意义上的可执行插件。其实,它的内涵要更精妙一些。 简单说,Skills本质上是一套基于提示驱动的能力扩展机制。它并不是一个可以独立“跑”起来的程序模块,而是通过一份结构化描述文件(核心就是那个SKILL m
热门专题
热门推荐
清明节假期期间,A 股和港股休市,但比特币行情永不停歇。 4月6日,当多数市场还在假期中沉睡时,比特币已经悄然启动。价格从亚洲早盘的低点67400美元出发,一路向上试探,盘中最高涨破70300美元,不仅刷新了3月26日以来的高位,较日内低点的涨幅也超过了4%。以太坊的表现同样不俗,从2050美元附近
4月5日消息,日前,REDMI K90至尊版通过3C认证,预计将于本月发布。今日,小米中国区市场部总经理魏思琪用小米新机发布微博,不出意外,这正是即将登场的REDMI K90至尊版,这将是小米首款配
WPS演示中图表不随数据更新时,可通过四种方法实现自动同步:一、用OFFSET+COUNTA定义动态名称绑定图表;二、用组合框控件联动VLOOKUP提取数据;三、用数据透视图配合切
聚焦数字技术,释放创新动能。为集中展示静安区区块链技术从“实验室”走向“应用场”的丰硕成果,挖掘一批可复制、可推广的行业解决方案,加速构建区块链产业生态闭环,静安区数据局特推出“静安区区块链创新应用
太空中的马桶堵了,边飞边修还能勉强用。但中东被点燃的火药桶,美国怎么来扑灭?靠一再延期的“最后通牒”?还是靠无底线的轰炸?2300万美元的马桶美国航空航天局4名宇航员1日搭乘“猎户座”飞船升空,执行





