機器學習數據集篇——KMNIST數據集

本篇文章主要的是基於古日文的數據集KMNIST和論文Deep Learning for Classical Japanese Literature。

基於古日文的深度學習

【摘要】 許多機器學習研究的重點是生成在基準任務上表現良好的模型,從而提高我們對與這些任務相關的挑戰的理解。從ML研究人員的角度來看,任務本身的內容在很大程度上是無關的,因此人們越來越多地要求基準任務更多地關注與社會或文化相關的問題。在本文中,我們介紹了一種新的數據集Kuzushiji-MNIST,此數據集聚焦於日文草書(此外,還有兩個更大更具有挑戰性的數據集Kuzushiji-49和Kuzushiji-Kanji),通過這些,我們希望讓機器學習團體參與到日本古典文學的世界中來。

1 Introduction

記載的歷史文獻給了我們一種對過去的感悟。我們能夠在我們的時代之前瞥見世界,並看到它的文化、規範和價值觀來反思我們自己。日本有着非常獨特的歷史道路。從歷史上看,日本及其文化與西方相對孤立,直到1868年日本領導人改革教育制度以實現文化現代化的復興。這使日語、書寫和印刷系統發生了巨大的變化。由於日本語言在這個時代的現代化,官方學校課程中不再使用和教授草書。儘管日文已被使用了1000多年,但今天大多數日本人都無法閱讀150多年前所寫或出版的書籍。
在這裏插入圖片描述在這裏插入圖片描述
根據國家書籍的總目錄[19],在1867年之前,日本已出版或出版了170萬冊書籍。除國家目錄中的註冊圖書數量外,我們估計全國共有300萬冊未經登記的圖書和10億冊歷史文件。儘管目前正在努力創建這些文件的數字副本-防止火災、地震和災難-但這些文本中所包含的大部分知識、歷史和文化仍然向公衆開放。雖然我們有許多普通的書和書,但只有少數受過古日語草書教育的人能夠閱讀和工作,這就形成了大量的日本文化作品,如果不是此方面的專家則無法閱讀。
在這裏插入圖片描述
本文介紹了一個專門爲機器學習研究而製作的數據集,以使該羣體參與日本文學領域。在此項工作中,我們發佈了三個易於使用的數據集:Kuzushiji-MNIST(此數據集專注於草書日語),還有兩個更大更具有挑戰性的數據集:Kuzushiji-49和Kuzushiji-Kanji。此外,我們還提供了Kuzushiji-MNIST和Kuzushiji-49的分類結果baseline,還將生成模型應用於草書和現代書寫的遷移任務(見圖3)。通過這些相似的實驗,我們希望機器學習共同體進入日本古典文學的世界。

2 Kuzushiji Dataset

Kuzushiji數據集是由日本國立文學研究所(NIJL)創建的,是由人文學科開放數據中心(CODH)創建的。2014年,新技術研究所和其他研究機構啓動了一個全國項目,對大約30萬本日文舊書進行抄寫轉錄,其中一些還包括一些舊書,並將其作爲促進國際合作的公開數據共享。在抄寫轉錄的過程中,爲每個文字創造了bounding box,但文學學者認爲並不值得。從機器學習的角度出發,建議爲頁面上的複選框建立單獨的數據集,因爲這可以作爲許多機器學習挑戰的基礎,並致力於實現自動轉錄。最終,整個Kuzushiji數據集發佈於2016年11月,如今包含了3,999個字符類型和403,242個字符。
在這裏插入圖片描述
我們希望,通過以熟悉的格式發佈版本,我們可以鼓勵ML(機器學習)和日本文學團體之間的對話。我們對18世紀印刷的35本經典書籍進行了預處理,並將數據集分爲3部分:(1)Kuzushiji-MNIST,一個類似於MNIST的基本數據集;(2)Kuzushiji-49,一個更大的但是數據不平衡的數據集,含有48個Hiragana字符和一個Hiragana迭代標註;(3)Kuzushiji-Kanji,一個含有3832個漢字(Kanji)字符的不平衡數據集,並且包含了一些極少數極稀有的樣例。
在這裏插入圖片描述
由於MNIST要將我們限制爲10個類,遠遠少於完全表示的49個類,所以我們在創建同級時,我們在創建Kuzushiji-MNIST的時候選用了一個字符來代表Hiragana的10行。古日文中很重要的一個特徵並且不同於現代日語的一點就是古日語含有變體假名(Hentaigana)。變體假名或者變分體,是平假名字符,有多種形式的文字,因爲他們是從不同的漢字派生的。因此,一種Kuzushiji-MNIST或者Kuzushiji-49的Hiragana一類可能會有更多的字符映射到它。例如,如圖5所示,有三種方法可以寫出某一字符因爲它是從不同的漢字演變而來。
圖6顯示了這種多對一映射的另一個例子。即使Kuzushiji-MNIST是作爲數據集的插入替代MNIST數據集而創建的,但 Hentaigana和Arabic這兩者的特徵是完全不同的,這也是爲什麼我們認爲 Kuzushiji-MNIST數據集比MNIST數據集更具挑戰性的原因之一。
在這裏插入圖片描述
Kuzushiji-49和Kuzushiji-Kanji這種類別的高不平衡是由於真實原書籍中的出現頻率不同,我們保持了這樣的方式來表示真實的數據分佈。顧名思義,Kuzushiji-49有49個類(266,407幅圖像),Kuzushiji-kanji共有3832個類(140,426幅圖像),從每個類有1,766個例子到每個類只有一個例子。
在這裏插入圖片描述
在這三個數據集中,訓練集和測試集中的字符是從相同的35本書中抽取出來的,這意味着每個類的數據分佈在兩個集合之間是一致的。當Kuzushiji-MNIST在各個類之間保持平衡時,Kuzushiji-49有幾個罕見的字符和少量的樣本。
另一方面,Kuzushiji-Kanji是一個高度不平衡的數據集,這是由於Kuzushiji文學中出現的漢字自然頻率造成的。在Kuzushiji-Kanji數據集中,樣本的數量從4千多個到只有一個樣本。這個數據集是爲更有創造性的實驗任務而創建的,而不僅僅是爲了分類和字符識別基準。
我們設計的代替MNIST的數據集靈感來自於流行Fashion-MNIST,這是一種流行體系的數據集,比普通MNIST數據集更加複雜,同時保持了易用性。我們認爲相比於MNIST,Fashion-MNIST降低了模型的性能,因爲許多時裝項目,如襯衫、t恤或外套,在灰度上的分辨率爲28x28像素時,看起來非常相似,使得許多樣本甚至對人類來說也很模糊(人類在時尚上的表現僅爲83.5%)。與MNIST相比,Kuzushiji-MNIST的一個特點是,與MNIST相比,它實際上有多種非常不同的書寫方式,而對於人類讀者來說,每一種書寫方式在28x28像素的分辨率下仍然是清晰的,這意味着我們相信沒有那麼多的“上限”。另一個不同之處是,雖然時尚潮流來來去去,但從現在起的一百年後,襯衫的構成可能會有所不同,而Kuzushiji將始終堅如磐石。我們相信Fashion-MNIST和Kuzushiji-MNIST都將成爲原始MNIST數據集的有用夥伴。

3 Experiments

3.1 Classification Baselines for Kuzushiji-MNIST and Kuzushiji-49

在這裏插入圖片描述
Table1中我們展示了在Kuzushiji-MNIST和Kuzushiji-49數據集上分類baseline的結果。我們考慮了4種不同的baseline:一種簡單的四鄰域算法,一個小型的2層卷積網絡,一個18層的ResNet,和一個包含了多個混合正則器的ResNet。關於訓練具體的設置細節,請參考GitHub上包含此數據集的存儲庫。通過使用各種不同的方法將性能數字與原始MNIST數據集進行比較,我們希望這些結果將爲我們的數據集的相對難度提供一種感覺。

3.2 Domain Transfer from Kuzushiji-Kanji to Modern Kanji

除了分類之外,我們還對數據集的更有創造性的使用感興趣。雖然現在有側重於響度徐翔的領域遷移(domain transfer)工作,我們探索出了從像素圖像到矢量圖像的跨域轉換。我們提出的模型旨在生成給定的kuzushiji-kanji輸入的現代漢字版本,既包括像素格式,也包括基於筆畫的格式。
在這裏插入圖片描述
我們使用了KanjiVG,一種現代漢字的字體,按筆畫順序排列。變分自動編碼器爲Kuzushiji-Kanji和一個像素版本的KanjiVG提供了一個潛在空間。然後訓練一個Sketch-RNN模型,以VAE的潛在空間爲條件,生成現代的漢字筆畫。使用VAE預測現代漢字的像素版本也有助於人類轉錄者,因爲輸出的模糊區域可以解釋爲不確定的區域。除了前面的圖3之外,有關我們的模型在測試集示例上的演示,請參見下面的圖10。
在這裏插入圖片描述
在圖11中,我們展示了我們的方法的總體圖。我們首先訓練兩個獨立的卷積變分自動編碼器,一個在Kuzushiji-Kanji數據集上,另一個在呈現爲64x64像素分辨率的kanjivg數據集的像素版本上,以保證一致性。VAE的體系結構與[9]相同,這兩個數據集都被壓縮成各自64維的潛在空間,zoldz_oldznewz_new。與以前的工作一樣,我們不對KL損失項進行一定閾值以下的優化,在z上強制執行高斯先驗時,保證了一定的信息容量。
在這裏插入圖片描述
然後我們用帶有2個隱含層的混合密度網絡(MDN)將密度函數P(znewzold)P(z_{new}|z_{old})近似爲高斯混合函數。我們可以對現代漢字領域中的潛在向量znewz_{new}進行採樣,給出一個從Kuzushiji-Kanji編碼的潛在向量zoldz_{old}。我們注意到,在每個數據集上培訓兩個單獨的VAE模型要比對單個模型進行端到端的培訓效率高得多,並且取得了更好的效果,在我們的經驗中,這並不能很好地工作,並可能解釋爲什麼以前的工作需要使用對抗性損失。
以前的工作利用MDN-RNN生成基於筆畫的漢字在最後一步中,我們訓練了一個Sketch-RNN譯碼器模型來生成現代漢字集。這兩個數據集之間有大約3,600個重疊的kanji字符。對於不在Kuzushiji-Kanji中的字符,我們在KanjiVG數據編碼的znewz_{new}上對模型進行了條件化,以生成同樣來自KanjiVG的筆畫數據,參見圖11中的(1)。對於重疊的3,600集中的字符,我們使用從以zoldz_{old}爲條件的MDN中採樣的znewz_{new}來生成同樣來自KanjiVG的筆畫數據,如圖11中的(2)所示。通過這樣做,Sketch-RNN訓練過程可以微調VAE的潛在空間的各個方面,當僅對像素進行訓練時,這些部分可能無法捕獲現代漢字集數據分佈的良好部分,方法是在數據集的筆畫版本上再次對其進行訓練。

4 Feature Directions

我們相信,kuzushiji數據集不僅將成爲推進分類算法的基準,而且還將有助於更有創造性的領域,如生成模型、對抗性示例、少鏡頭學習、轉移學習和域適應。爲了促進社區建設,我們計劃利用Kuzushiji數據集組織機器學習競賽,以鼓勵這些研究領域的進一步發展。我們還在努力擴大數據集的大小,到明年,整個Kuzushiji數據集的大小將擴展到超過100萬字符圖像。我們希望這些努力將鼓勵不同研究領域之間的進一步合作,同時有助於保存日本歷史的文化知識和遺產。


【補充ing~】

1 Kuzushiji Dataset

Kuzushiji數據集一共分爲三種,Kuzushiji-MNIST,Kuzushuji-49和Kuzushiji-Kanji(具體做什麼請看上文)【下載地址:https://github.com/rois-codh/kmnist 】,你可以手動下載,也是用baseline裏面給的download_data.py下載。
Kuzushiji-MNIST(下稱Kmnist)數據集裏訓練圖像60,000張,測試圖像10,000張,它和普通的MNIST數據集沒有本質上的區別,數據有兩種形式,一種是MNIST format(.gz文件),一種是Numpy format(.npz文件),看自己需要就下載那種數據文件就可以了。如何將MNIST format(.gz文件)文件轉化爲圖像文件,請點擊這裏;如何將Numpy format文件轉化爲圖像文件(.npz文件),請點擊這裏。
【.npy文件——Numpy專用二進制格式】 np.load()和np.save()是讀寫磁盤數組數據的兩個重要函數。使用時,數組會以未壓縮的原始二進制格式保存在擴展名爲.npy的文件中。
【.npz文件——壓縮文件】 使用np.savez()函數可以將多個數組保存到同一個文件中。np.savez()函數輸出的是一個擴展名爲.npz的壓縮文件,它包含多個與保存的數組對應的npy文件(由save()函數保存),文件名對應數組名。讀取.npz文件時使用np.load()函數,返回的是一個類似於字典的對象,因此可以通過數組名作爲關鍵字對多個數組進行訪問。
在這裏插入圖片描述

2 The Authors

這篇論文的作者們有的很厲害,有的是日文方向的專家,而且所供職的機構也很牛,簡單的放一下介紹吧(有些就略過不介紹了,但是也膜拜一下吧)。
Center for Open Data in the Humanities,CODH 2016年4月1日,信息和系統的研究組織,數據科學聯合使用的基礎設施(聯合支持中心的數據科學的研究) 中,人文開放數據共同使用中心(中心開放數據在人文 / CODH) 準備室開始活動。此外,2017年4月1日,準備室成爲中心,正式啓動了人文/開放數據共享使用中心的活動。此機構內有很多很有意思的數據集,包含日本經典數據集、江戶菜食譜數據集、日本古典文本數據集、KMNIST數據集、藝術史研究的民不集合、現代雜誌數據集和Geoshape數據庫。
【Google Brain】 Google Brain是Google的一個深入學習的人工智能研究團隊。成立於2010年代初,Google Brain將開放式機器學習研究與系統工程和Google規模的計算資源結合起來。主要涉及的項目有:人工智能設計的加密系統、圖像增強、谷歌翻譯和機器人。Google Brain最初是由谷歌研究員Jeff Dean和斯坦福大學客座教授Andrew Ng創立的。
【 Mikel Bober-Irizar】 這個就是妥妥的大佬了,據2018年的消息,Mikel是Kaggle競賽的最年輕的頂級玩家(因爲人家只有18歲)。Kaggle Progression System的等級從低到高分別爲:Novice、Contributor、Expert、Master和Grandmaster。Kaggle在全球範圍內只有122位Grandmaster(而Kaggle成立8年,註冊用戶超過100萬),Mikel在122位Grandmaster中,排名第31(2018年排名)。所以長江後浪推前浪,雖然我們還不算前浪。


【推薦閱讀】

【Paper】A Neural Representation of Sketch Drawings(paper
【Fashion-MNIST】Fashion-MNIST: A MNIST-like fashion product database/Fashion-MNIST: a novel image dataset for benchmarking
machine learning algorithms(paper
【Code】Kuzushiji-MNIST&Baseline(github

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章