論文閱讀
EMNIST: an extension of MNIST to handwritten letters
/ 2020-01 Howard wonanut
最近遇到一個問題,需要識別手寫字母,這個問題本身沒啥難度,難在如何找到訓練數據集,因爲之前做過手寫數字的識別,知道有個MNIST手寫數字數據集,可這手寫字母數據集還真沒注意過。第一個映入眼簾的手寫字母數據集是Chars74k數據集,裏面的EnglishHnd
即爲手寫數字數據集,不過數據量比較少,每個字母只有55個圖片數據。
直到今天,在kaggle上看到了EMNIST數據集,真的是發現了一個寶藏,所以整理一下這個論文:
論文下載地址:EMNIST: an extension of MNIST to handwritten letters
產生背景
衆所周知,MNIST是一個權威的手寫數字數據集,而且一直有一個手寫數字+大小寫字母數據集NIST,只不過由於NIST數據集使用起來不太方便,而且沒有像EMNIST將訓練集和測試集劃分,因此在使用以及對比結果的時候很不方便,從而有了ENMIST(extension of MNIST)。
數據集劃分
該數據集基於NIST Special Database 19產生。論文作者已經將數據按照不同的劃分方法進行了劃分,而且都已經劃分了訓練集和測試集:
- By_page:裏面含有未經處理的整頁的字符黑白掃描
- By_Author: 裏面根據不同的書寫者,將屬於同一個人的所有字符都歸成一類
- By_Field: 分成字母,數字,可以用於字母或者數字分割
- By_Class: 按類別,即 數字 10 類[0-9],26 類 [a-z],26 類 [A-Z],共 62 類
- By_Merge: 因爲有的因爲字母,大小寫手寫體基本很難分辨,所有這裏將這些字母大小寫合併,又構成一個新的分類,被合併的字母有 15 類 [C,I,J,K,L,M,O,P,S,U,V,W,X,Y,Z],所以最後最剩下 47 類
EMNIST數據集的部分劃分結果如下圖:
banchmark結果
不太重要,略
(完)