FUNSD dataset 數據集介紹

數據集介紹

一個可用於FUNSD(噪聲很多的掃描文檔)上進行表單理解的數據集。

這裏的表單理解是指對錶單中的文本內容進行抽取,並生成結構化數據。

數據集包含199個真實的、完全註釋的、掃描的表單。

文檔有很多噪聲,而且各種表單的外觀差異很大,因此理解表單是一項很有挑戰性的任務。

該數據集可用於各種任務,包括文本檢測、光學字符識別、空間佈局分析和實體標記/鏈接。

第一個具有完整註釋的公共數據集,可用於處理FoUn任務。

數據集組成

這個數據集由原始圖片(images)和標註結果(annotations)組成。

這些原始圖片是e RVL-CDIP數據集的子集。e RVL-CDIP數據集是一個包含各種類型文檔的灰度圖片,
圖片分辨率大約在100像素,共400000張。由於圖片質量差且噪聲非常多,作者從25000張表單圖片中挑
選出3200張合格的圖片(去掉了不可讀和類似的),然後隨機選擇了199張進行標註。

標註結果爲JSON格式,如下圖:
在這裏插入圖片描述
注:

  1. box位置用左上右下兩個點來確定,即box對應的4個值爲[x0, y0, x1, y1]。
  2. lable的值有[question, answer, header, other]
  3. linking對應的list爲其指向的其他實體

訓練集和測試集的數據分佈

數據分佈統計情況

Split Forms Words Entities Relations
Training 149 22, 512 7, 411 4, 236
Testing 50 8, 973 2, 332 1, 076

實體類別分佈情況

Split Header Question Answer Other Total
Training 441 3, 266 2, 802 902 7, 411
Testing 122 1, 077 821 312 2, 332

論文地址:https://arxiv.org/pdf/1905.13538.pdf
數據下載地址:https://guillaumejaume.github.io/FUNSD/

(注:若有錯誤希望大家指出!)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章