數據集介紹
一個可用於FUNSD(噪聲很多的掃描文檔)上進行表單理解的數據集。
這裏的表單理解是指對錶單中的文本內容進行抽取,並生成結構化數據。
數據集包含199個真實的、完全註釋的、掃描的表單。
文檔有很多噪聲,而且各種表單的外觀差異很大,因此理解表單是一項很有挑戰性的任務。
該數據集可用於各種任務,包括文本檢測、光學字符識別、空間佈局分析和實體標記/鏈接。
第一個具有完整註釋的公共數據集,可用於處理FoUn任務。
數據集組成
這個數據集由原始圖片(images)和標註結果(annotations)組成。
這些原始圖片是e RVL-CDIP數據集的子集。e RVL-CDIP數據集是一個包含各種類型文檔的灰度圖片,
圖片分辨率大約在100像素,共400000張。由於圖片質量差且噪聲非常多,作者從25000張表單圖片中挑
選出3200張合格的圖片(去掉了不可讀和類似的),然後隨機選擇了199張進行標註。
標註結果爲JSON格式,如下圖:
注:
- box位置用左上右下兩個點來確定,即box對應的4個值爲[x0, y0, x1, y1]。
- lable的值有[question, answer, header, other]
- linking對應的list爲其指向的其他實體
訓練集和測試集的數據分佈
數據分佈統計情況
Split | Forms | Words | Entities | Relations |
---|---|---|---|---|
Training | 149 | 22, 512 | 7, 411 | 4, 236 |
Testing | 50 | 8, 973 | 2, 332 | 1, 076 |
實體類別分佈情況
Split | Header | Question | Answer | Other | Total |
---|---|---|---|---|---|
Training | 441 | 3, 266 | 2, 802 | 902 | 7, 411 |
Testing | 122 | 1, 077 | 821 | 312 | 2, 332 |
論文地址:https://arxiv.org/pdf/1905.13538.pdf
數據下載地址:https://guillaumejaume.github.io/FUNSD/
(注:若有錯誤希望大家指出!)