聯機手寫漢字數據集下載總結

中科院CASIA數據集

CASIA-OLHWDB1.0 :手寫單字,171 個英文數字符號,3866 個常用漢字(其中3740個屬於GB2312 - -級漢字),420套,分別爲420個人書寫。總共1,694,741個有效樣本,分別存在420個POT文件中。

CASIA-OLHWDB1.1 :手寫單字,171個英文數字符號,3755個GB2312級漢字,300套,分別爲300個人書寫。總共1,174,364個有效樣本。分別存在300個POT文件中。

下載地址

其他的數據集需要申請。

哈工大HIT-OR3C數據集

HIT-OR3C由5個子集組成 (GB1, GB2, Digit, Letter, 和Document),GB1和GB2是漢字標註庫GB2312-80內2個子集的簡寫。GB1, GB2, Digit, 和 Letter子集已採集完成122套,共832,650 個手寫漢字。Document子集包括10個從新浪網收集的文檔,每個文檔採集2套,共收集了20套。文檔子集共有77,168個字符, 覆蓋2,442個字符,其中2,286個來自GB1,97個來自GB2,49個來自Letter, 10個來自 Digit。

下載地址

華南理工SCUTCOUCH-2009數據集

SCUT-COUCH2009是一款包括12個子集的完整數據,它們分別是:中文詞組、國標一級漢字、國標二級漢字、國標一級漢字對應的繁體字、漢語拼音、英文字母、阿拉伯數字、常用符號、Word8888、Word17366、Word44208和聯機文本行數據。每套完整的SCUT-COUCH2009包括6,763個GB2312-80單漢字,5401個Big5繁體字,1384個和GB2312-80一級字庫相對應的繁體字,8,888個常用的中文詞組,17,366個常用中文詞組,摘自《現代漢語大辭典》(第四版)的44,208個詞組,2,010個漢語拼音,184個其他符號(包括字母、數字和常用符號)和8,809行聯機文本行;現在版本的SCUT-COUCH2009使用PDA或手寫屏進行採集,已完成了由190多人書寫的完整的數據,字符總數超過3.6百萬個。

下載地址(需要申請)

今天是1024哦!

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章