表格OCR相關資源整理【ICDAR】【表格識別】【持續更新...】

  • 定義:
    • 表格檢測(Table Detection)任務是從一個頁面中檢測出表格所在的區域
    • 表格結構識別(Table Structure Recognition)任務則是在檢測到的表格區域的基礎上,進一步將表格的內容與邏輯結構識別出來
  • 數據集:

名稱

說明

內容

量級

地址

ICDAR2013

PDF

美國政府文件和歐盟文件

 

http://www.tamirhassan.com/html/dataset.html

icdar2017頁面對象識別

頁面截圖

     

ctdar2019

分爲兩類數據,歷史文檔和現在文檔

   

https://github.com/cndplab-founder/ICDAR2019_cTDaR

TABLE2LATEX-450K

latex

 

46.6萬

https://github.com/bloomberg/TABLE2LATEX

DECO

電子表格

 

1165

https://wwwdb.inf.tu-dresden.de/publications/deco-a-dataset-of-annotated-spreadsheets-for-layout-and-table-recognition/

第三方個人數據

掃描英文表格檢測

 

403

https://github.com/sgrpanchal31/table-detection-dataset

  • 論文:
    • ICDAR2019會議中,共有16篇與表格識別相關的論文
    • 其中5篇針對表格檢測任務
    • 8篇針對表格結構識別任務
    • 1篇在同時進行了表格檢測與結構識別的任務
    • 2篇則是發佈了新的表格識別相關的數據集

任務

論文名稱

說明

作者

代碼

數據

識別

A Genetic-based Search for Adaptive Table Recognition in Spreadsheets

傳統圖像,應用於excel截圖

     

識別

Deep Splitting and Merging for Table Structure Decomposition

ICDAR2013表格競賽表格結構識別子任務的數據集State-of-the-art

adobe研究院

   

識別

DeepTabStr:Deep Learning based Table Structure Recognition

       

識別

ReS2TIM: Reconstruct SyntacticStructures from Table Images

icdar2013 f1 0.74

     

識別

Rethinking Semantic Segmentationfor Table Structure Recognition in Documents

不可處理跨行跨列

     

識別

Rethinking Table Recognitionusing Graph Neural Networks

有框線無框線表格均可處理

沒有提供預訓練模型

 

https://github.com/shahrukhqasim/TIES-2.0

合成,提供數據生產工具

識別

TableStructure Extraction with Bi-directional Gated Recurrent Unit Networks

       

端到端檢測識別

TableNet: Deep Learning Model for End-to-end Table Detection and Tabular Data Extraction from Scanned Document Images

icdar2013檢測和識別F1分別爲96.62%和91.51%

  https://github.com/DevashishPrasad/CascadeTabNet  

檢測

A GAN-based Feature Generator forTable Detection

ICDAR13/17 state-of-the-art

北京大學王選計算機研究所

   

檢測

A YOLO-based Table Detection Method

       

檢測

Faster R-CNN BasedTable Detection Combining Corner Locating

     

ICDAR2017 POD數據集

檢測

Table Detection in Invoice Documents by Graph Neural Networks

     

取自 RVL-CDIP invoice data

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章