[論文閱讀]EMNIST: an extension of MNIST to handwritten letters

論文閱讀

EMNIST: an extension of MNIST to handwritten letters

/ 2020-01 Howard wonanut

最近遇到一個問題,需要識別手寫字母,這個問題本身沒啥難度,難在如何找到訓練數據集,因爲之前做過手寫數字的識別,知道有個MNIST手寫數字數據集,可這手寫字母數據集還真沒注意過。第一個映入眼簾的手寫字母數據集是Chars74k數據集,裏面的EnglishHnd即爲手寫數字數據集,不過數據量比較少,每個字母只有55個圖片數據。
在這裏插入圖片描述

直到今天,在kaggle上看到了EMNIST數據集,真的是發現了一個寶藏,所以整理一下這個論文:
論文下載地址:EMNIST: an extension of MNIST to handwritten letters

產生背景

衆所周知,MNIST是一個權威的手寫數字數據集,而且一直有一個手寫數字+大小寫字母數據集NIST,只不過由於NIST數據集使用起來不太方便,而且沒有像EMNIST將訓練集和測試集劃分,因此在使用以及對比結果的時候很不方便,從而有了ENMIST(extension of MNIST)。

數據集劃分

該數據集基於NIST Special Database 19產生。論文作者已經將數據按照不同的劃分方法進行了劃分,而且都已經劃分了訓練集和測試集:

  • By_page:裏面含有未經處理的整頁的字符黑白掃描
  • By_Author: 裏面根據不同的書寫者,將屬於同一個人的所有字符都歸成一類
  • By_Field: 分成字母,數字,可以用於字母或者數字分割
  • By_Class: 按類別,即 數字 10 類[0-9],26 類 [a-z],26 類 [A-Z],共 62 類
  • By_Merge: 因爲有的因爲字母,大小寫手寫體基本很難分辨,所有這裏將這些字母大小寫合併,又構成一個新的分類,被合併的字母有 15 類 [C,I,J,K,L,M,O,P,S,U,V,W,X,Y,Z],所以最後最剩下 47 類
    在這裏插入圖片描述

EMNIST數據集的部分劃分結果如下圖:

在這裏插入圖片描述

banchmark結果

不太重要,略

(完)

發佈了129 篇原創文章 · 獲贊 118 · 訪問量 22萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章