- 定義:
- 表格檢測(Table Detection)任務是從一個頁面中檢測出表格所在的區域
- 表格結構識別(Table Structure Recognition)任務則是在檢測到的表格區域的基礎上,進一步將表格的內容與邏輯結構識別出來
- 數據集:
名稱 |
說明 |
內容 |
量級 |
地址 |
ICDAR2013 |
|
美國政府文件和歐盟文件 |
||
icdar2017頁面對象識別 |
頁面截圖 |
|||
ctdar2019 |
分爲兩類數據,歷史文檔和現在文檔 |
|||
TABLE2LATEX-450K |
latex |
46.6萬 |
https://github.com/bloomberg/TABLE2LATEX |
|
DECO |
電子表格 |
1165 |
||
第三方個人數據 |
掃描英文表格檢測 |
403 |
- 論文:
- ICDAR2019會議中,共有16篇與表格識別相關的論文
- 其中5篇針對表格檢測任務
- 8篇針對表格結構識別任務
- 1篇在同時進行了表格檢測與結構識別的任務
- 2篇則是發佈了新的表格識別相關的數據集
任務 |
論文名稱 |
說明 |
作者 |
代碼 |
數據 |
識別 |
A Genetic-based Search for Adaptive Table Recognition in Spreadsheets |
傳統圖像,應用於excel截圖 |
|||
識別 |
Deep Splitting and Merging for Table Structure Decomposition |
ICDAR2013表格競賽表格結構識別子任務的數據集State-of-the-art |
adobe研究院 |
||
識別 |
DeepTabStr:Deep Learning based Table Structure Recognition |
||||
識別 |
ReS2TIM: Reconstruct SyntacticStructures from Table Images |
icdar2013 f1 0.74 |
|||
識別 |
Rethinking Semantic Segmentationfor Table Structure Recognition in Documents |
不可處理跨行跨列 |
|||
識別 |
Rethinking Table Recognitionusing Graph Neural Networks |
有框線無框線表格均可處理 沒有提供預訓練模型 |
合成,提供數據生產工具 |
||
識別 |
TableStructure Extraction with Bi-directional Gated Recurrent Unit Networks |
||||
端到端檢測識別 |
TableNet: Deep Learning Model for End-to-end Table Detection and Tabular Data Extraction from Scanned Document Images |
icdar2013檢測和識別F1分別爲96.62%和91.51% |
https://github.com/DevashishPrasad/CascadeTabNet | ||
檢測 |
A GAN-based Feature Generator forTable Detection |
ICDAR13/17 state-of-the-art |
北京大學王選計算機研究所 |
||
檢測 |
A YOLO-based Table Detection Method |
||||
檢測 |
Faster R-CNN BasedTable Detection Combining Corner Locating |
ICDAR2017 POD數據集 |
|||
檢測 |
Table Detection in Invoice Documents by Graph Neural Networks |
取自 RVL-CDIP invoice data |