表格OCR相关资源整理【ICDAR】【表格识别】【持续更新...】

  • 定义:
    • 表格检测(Table Detection)任务是从一个页面中检测出表格所在的区域
    • 表格结构识别(Table Structure Recognition)任务则是在检测到的表格区域的基础上,进一步将表格的内容与逻辑结构识别出来
  • 数据集:

名称

说明

内容

量级

地址

ICDAR2013

PDF

美国政府文件和欧盟文件

 

http://www.tamirhassan.com/html/dataset.html

icdar2017页面对象识别

页面截图

     

ctdar2019

分为两类数据,历史文档和现在文档

   

https://github.com/cndplab-founder/ICDAR2019_cTDaR

TABLE2LATEX-450K

latex

 

46.6万

https://github.com/bloomberg/TABLE2LATEX

DECO

电子表格

 

1165

https://wwwdb.inf.tu-dresden.de/publications/deco-a-dataset-of-annotated-spreadsheets-for-layout-and-table-recognition/

第三方个人数据

扫描英文表格检测

 

403

https://github.com/sgrpanchal31/table-detection-dataset

  • 论文:
    • ICDAR2019会议中,共有16篇与表格识别相关的论文
    • 其中5篇针对表格检测任务
    • 8篇针对表格结构识别任务
    • 1篇在同时进行了表格检测与结构识别的任务
    • 2篇则是发布了新的表格识别相关的数据集

任务

论文名称

说明

作者

代码

数据

识别

A Genetic-based Search for Adaptive Table Recognition in Spreadsheets

传统图像,应用于excel截图

     

识别

Deep Splitting and Merging for Table Structure Decomposition

ICDAR2013表格竞赛表格结构识别子任务的数据集State-of-the-art

adobe研究院

   

识别

DeepTabStr:Deep Learning based Table Structure Recognition

       

识别

ReS2TIM: Reconstruct SyntacticStructures from Table Images

icdar2013 f1 0.74

     

识别

Rethinking Semantic Segmentationfor Table Structure Recognition in Documents

不可处理跨行跨列

     

识别

Rethinking Table Recognitionusing Graph Neural Networks

有框线无框线表格均可处理

没有提供预训练模型

 

https://github.com/shahrukhqasim/TIES-2.0

合成,提供数据生产工具

识别

TableStructure Extraction with Bi-directional Gated Recurrent Unit Networks

       

端到端检测识别

TableNet: Deep Learning Model for End-to-end Table Detection and Tabular Data Extraction from Scanned Document Images

icdar2013检测和识别F1分别为96.62%和91.51%

  https://github.com/DevashishPrasad/CascadeTabNet  

检测

A GAN-based Feature Generator forTable Detection

ICDAR13/17 state-of-the-art

北京大学王选计算机研究所

   

检测

A YOLO-based Table Detection Method

       

检测

Faster R-CNN BasedTable Detection Combining Corner Locating

     

ICDAR2017 POD数据集

检测

Table Detection in Invoice Documents by Graph Neural Networks

     

取自 RVL-CDIP invoice data

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章