机器学习数据集篇——KMNIST数据集

本篇文章主要的是基于古日文的数据集KMNIST和论文Deep Learning for Classical Japanese Literature。

基于古日文的深度学习

【摘要】 许多机器学习研究的重点是生成在基准任务上表现良好的模型,从而提高我们对与这些任务相关的挑战的理解。从ML研究人员的角度来看,任务本身的内容在很大程度上是无关的,因此人们越来越多地要求基准任务更多地关注与社会或文化相关的问题。在本文中,我们介绍了一种新的数据集Kuzushiji-MNIST,此数据集聚焦于日文草书(此外,还有两个更大更具有挑战性的数据集Kuzushiji-49和Kuzushiji-Kanji),通过这些,我们希望让机器学习团体参与到日本古典文学的世界中来。

1 Introduction

记载的历史文献给了我们一种对过去的感悟。我们能够在我们的时代之前瞥见世界,并看到它的文化、规范和价值观来反思我们自己。日本有着非常独特的历史道路。从历史上看,日本及其文化与西方相对孤立,直到1868年日本领导人改革教育制度以实现文化现代化的复兴。这使日语、书写和印刷系统发生了巨大的变化。由于日本语言在这个时代的现代化,官方学校课程中不再使用和教授草书。尽管日文已被使用了1000多年,但今天大多数日本人都无法阅读150多年前所写或出版的书籍。
在这里插入图片描述在这里插入图片描述
根据国家书籍的总目录[19],在1867年之前,日本已出版或出版了170万册书籍。除国家目录中的注册图书数量外,我们估计全国共有300万册未经登记的图书和10亿册历史文件。尽管目前正在努力创建这些文件的数字副本-防止火灾、地震和灾难-但这些文本中所包含的大部分知识、历史和文化仍然向公众开放。虽然我们有许多普通的书和书,但只有少数受过古日语草书教育的人能够阅读和工作,这就形成了大量的日本文化作品,如果不是此方面的专家则无法阅读。
在这里插入图片描述
本文介绍了一个专门为机器学习研究而制作的数据集,以使该群体参与日本文学领域。在此项工作中,我们发布了三个易于使用的数据集:Kuzushiji-MNIST(此数据集专注于草书日语),还有两个更大更具有挑战性的数据集:Kuzushiji-49和Kuzushiji-Kanji。此外,我们还提供了Kuzushiji-MNIST和Kuzushiji-49的分类结果baseline,还将生成模型应用于草书和现代书写的迁移任务(见图3)。通过这些相似的实验,我们希望机器学习共同体进入日本古典文学的世界。

2 Kuzushiji Dataset

Kuzushiji数据集是由日本国立文学研究所(NIJL)创建的,是由人文学科开放数据中心(CODH)创建的。2014年,新技术研究所和其他研究机构启动了一个全国项目,对大约30万本日文旧书进行抄写转录,其中一些还包括一些旧书,并将其作为促进国际合作的公开数据共享。在抄写转录的过程中,为每个文字创造了bounding box,但文学学者认为并不值得。从机器学习的角度出发,建议为页面上的复选框建立单独的数据集,因为这可以作为许多机器学习挑战的基础,并致力于实现自动转录。最终,整个Kuzushiji数据集发布于2016年11月,如今包含了3,999个字符类型和403,242个字符。
在这里插入图片描述
我们希望,通过以熟悉的格式发布版本,我们可以鼓励ML(机器学习)和日本文学团体之间的对话。我们对18世纪印刷的35本经典书籍进行了预处理,并将数据集分为3部分:(1)Kuzushiji-MNIST,一个类似于MNIST的基本数据集;(2)Kuzushiji-49,一个更大的但是数据不平衡的数据集,含有48个Hiragana字符和一个Hiragana迭代标注;(3)Kuzushiji-Kanji,一个含有3832个汉字(Kanji)字符的不平衡数据集,并且包含了一些极少数极稀有的样例。
在这里插入图片描述
由于MNIST要将我们限制为10个类,远远少于完全表示的49个类,所以我们在创建同级时,我们在创建Kuzushiji-MNIST的时候选用了一个字符来代表Hiragana的10行。古日文中很重要的一个特征并且不同于现代日语的一点就是古日语含有变体假名(Hentaigana)。变体假名或者变分体,是平假名字符,有多种形式的文字,因为他们是从不同的汉字派生的。因此,一种Kuzushiji-MNIST或者Kuzushiji-49的Hiragana一类可能会有更多的字符映射到它。例如,如图5所示,有三种方法可以写出某一字符因为它是从不同的汉字演变而来。
图6显示了这种多对一映射的另一个例子。即使Kuzushiji-MNIST是作为数据集的插入替代MNIST数据集而创建的,但 Hentaigana和Arabic这两者的特征是完全不同的,这也是为什么我们认为 Kuzushiji-MNIST数据集比MNIST数据集更具挑战性的原因之一。
在这里插入图片描述
Kuzushiji-49和Kuzushiji-Kanji这种类别的高不平衡是由于真实原书籍中的出现频率不同,我们保持了这样的方式来表示真实的数据分布。顾名思义,Kuzushiji-49有49个类(266,407幅图像),Kuzushiji-kanji共有3832个类(140,426幅图像),从每个类有1,766个例子到每个类只有一个例子。
在这里插入图片描述
在这三个数据集中,训练集和测试集中的字符是从相同的35本书中抽取出来的,这意味着每个类的数据分布在两个集合之间是一致的。当Kuzushiji-MNIST在各个类之间保持平衡时,Kuzushiji-49有几个罕见的字符和少量的样本。
另一方面,Kuzushiji-Kanji是一个高度不平衡的数据集,这是由于Kuzushiji文学中出现的汉字自然频率造成的。在Kuzushiji-Kanji数据集中,样本的数量从4千多个到只有一个样本。这个数据集是为更有创造性的实验任务而创建的,而不仅仅是为了分类和字符识别基准。
我们设计的代替MNIST的数据集灵感来自于流行Fashion-MNIST,这是一种流行体系的数据集,比普通MNIST数据集更加复杂,同时保持了易用性。我们认为相比于MNIST,Fashion-MNIST降低了模型的性能,因为许多时装项目,如衬衫、t恤或外套,在灰度上的分辨率为28x28像素时,看起来非常相似,使得许多样本甚至对人类来说也很模糊(人类在时尚上的表现仅为83.5%)。与MNIST相比,Kuzushiji-MNIST的一个特点是,与MNIST相比,它实际上有多种非常不同的书写方式,而对于人类读者来说,每一种书写方式在28x28像素的分辨率下仍然是清晰的,这意味着我们相信没有那么多的“上限”。另一个不同之处是,虽然时尚潮流来来去去,但从现在起的一百年后,衬衫的构成可能会有所不同,而Kuzushiji将始终坚如磐石。我们相信Fashion-MNIST和Kuzushiji-MNIST都将成为原始MNIST数据集的有用伙伴。

3 Experiments

3.1 Classification Baselines for Kuzushiji-MNIST and Kuzushiji-49

在这里插入图片描述
Table1中我们展示了在Kuzushiji-MNIST和Kuzushiji-49数据集上分类baseline的结果。我们考虑了4种不同的baseline:一种简单的四邻域算法,一个小型的2层卷积网络,一个18层的ResNet,和一个包含了多个混合正则器的ResNet。关于训练具体的设置细节,请参考GitHub上包含此数据集的存储库。通过使用各种不同的方法将性能数字与原始MNIST数据集进行比较,我们希望这些结果将为我们的数据集的相对难度提供一种感觉。

3.2 Domain Transfer from Kuzushiji-Kanji to Modern Kanji

除了分类之外,我们还对数据集的更有创造性的使用感兴趣。虽然现在有侧重于响度徐翔的领域迁移(domain transfer)工作,我们探索出了从像素图像到矢量图像的跨域转换。我们提出的模型旨在生成给定的kuzushiji-kanji输入的现代汉字版本,既包括像素格式,也包括基于笔画的格式。
在这里插入图片描述
我们使用了KanjiVG,一种现代汉字的字体,按笔画顺序排列。变分自动编码器为Kuzushiji-Kanji和一个像素版本的KanjiVG提供了一个潜在空间。然后训练一个Sketch-RNN模型,以VAE的潜在空间为条件,生成现代的汉字笔画。使用VAE预测现代汉字的像素版本也有助于人类转录者,因为输出的模糊区域可以解释为不确定的区域。除了前面的图3之外,有关我们的模型在测试集示例上的演示,请参见下面的图10。
在这里插入图片描述
在图11中,我们展示了我们的方法的总体图。我们首先训练两个独立的卷积变分自动编码器,一个在Kuzushiji-Kanji数据集上,另一个在呈现为64x64像素分辨率的kanjivg数据集的像素版本上,以保证一致性。VAE的体系结构与[9]相同,这两个数据集都被压缩成各自64维的潜在空间,zoldz_oldznewz_new。与以前的工作一样,我们不对KL损失项进行一定阈值以下的优化,在z上强制执行高斯先验时,保证了一定的信息容量。
在这里插入图片描述
然后我们用带有2个隐含层的混合密度网络(MDN)将密度函数P(znewzold)P(z_{new}|z_{old})近似为高斯混合函数。我们可以对现代汉字领域中的潜在向量znewz_{new}进行采样,给出一个从Kuzushiji-Kanji编码的潜在向量zoldz_{old}。我们注意到,在每个数据集上培训两个单独的VAE模型要比对单个模型进行端到端的培训效率高得多,并且取得了更好的效果,在我们的经验中,这并不能很好地工作,并可能解释为什么以前的工作需要使用对抗性损失。
以前的工作利用MDN-RNN生成基于笔画的汉字在最后一步中,我们训练了一个Sketch-RNN译码器模型来生成现代汉字集。这两个数据集之间有大约3,600个重叠的kanji字符。对于不在Kuzushiji-Kanji中的字符,我们在KanjiVG数据编码的znewz_{new}上对模型进行了条件化,以生成同样来自KanjiVG的笔画数据,参见图11中的(1)。对于重叠的3,600集中的字符,我们使用从以zoldz_{old}为条件的MDN中采样的znewz_{new}来生成同样来自KanjiVG的笔画数据,如图11中的(2)所示。通过这样做,Sketch-RNN训练过程可以微调VAE的潜在空间的各个方面,当仅对像素进行训练时,这些部分可能无法捕获现代汉字集数据分布的良好部分,方法是在数据集的笔画版本上再次对其进行训练。

4 Feature Directions

我们相信,kuzushiji数据集不仅将成为推进分类算法的基准,而且还将有助于更有创造性的领域,如生成模型、对抗性示例、少镜头学习、转移学习和域适应。为了促进社区建设,我们计划利用Kuzushiji数据集组织机器学习竞赛,以鼓励这些研究领域的进一步发展。我们还在努力扩大数据集的大小,到明年,整个Kuzushiji数据集的大小将扩展到超过100万字符图像。我们希望这些努力将鼓励不同研究领域之间的进一步合作,同时有助于保存日本历史的文化知识和遗产。


【补充ing~】

1 Kuzushiji Dataset

Kuzushiji数据集一共分为三种,Kuzushiji-MNIST,Kuzushuji-49和Kuzushiji-Kanji(具体做什么请看上文)【下载地址:https://github.com/rois-codh/kmnist 】,你可以手动下载,也是用baseline里面给的download_data.py下载。
Kuzushiji-MNIST(下称Kmnist)数据集里训练图像60,000张,测试图像10,000张,它和普通的MNIST数据集没有本质上的区别,数据有两种形式,一种是MNIST format(.gz文件),一种是Numpy format(.npz文件),看自己需要就下载那种数据文件就可以了。如何将MNIST format(.gz文件)文件转化为图像文件,请点击这里;如何将Numpy format文件转化为图像文件(.npz文件),请点击这里。
【.npy文件——Numpy专用二进制格式】 np.load()和np.save()是读写磁盘数组数据的两个重要函数。使用时,数组会以未压缩的原始二进制格式保存在扩展名为.npy的文件中。
【.npz文件——压缩文件】 使用np.savez()函数可以将多个数组保存到同一个文件中。np.savez()函数输出的是一个扩展名为.npz的压缩文件,它包含多个与保存的数组对应的npy文件(由save()函数保存),文件名对应数组名。读取.npz文件时使用np.load()函数,返回的是一个类似于字典的对象,因此可以通过数组名作为关键字对多个数组进行访问。
在这里插入图片描述

2 The Authors

这篇论文的作者们有的很厉害,有的是日文方向的专家,而且所供职的机构也很牛,简单的放一下介绍吧(有些就略过不介绍了,但是也膜拜一下吧)。
Center for Open Data in the Humanities,CODH 2016年4月1日,信息和系统的研究组织,数据科学联合使用的基础设施(联合支持中心的数据科学的研究) 中,人文开放数据共同使用中心(中心开放数据在人文 / CODH) 准备室开始活动。此外,2017年4月1日,准备室成为中心,正式启动了人文/开放数据共享使用中心的活动。此机构内有很多很有意思的数据集,包含日本经典数据集、江户菜食谱数据集、日本古典文本数据集、KMNIST数据集、艺术史研究的民不集合、现代杂志数据集和Geoshape数据库。
【Google Brain】 Google Brain是Google的一个深入学习的人工智能研究团队。成立于2010年代初,Google Brain将开放式机器学习研究与系统工程和Google规模的计算资源结合起来。主要涉及的项目有:人工智能设计的加密系统、图像增强、谷歌翻译和机器人。Google Brain最初是由谷歌研究员Jeff Dean和斯坦福大学客座教授Andrew Ng创立的。
【 Mikel Bober-Irizar】 这个就是妥妥的大佬了,据2018年的消息,Mikel是Kaggle竞赛的最年轻的顶级玩家(因为人家只有18岁)。Kaggle Progression System的等级从低到高分别为:Novice、Contributor、Expert、Master和Grandmaster。Kaggle在全球范围内只有122位Grandmaster(而Kaggle成立8年,注册用户超过100万),Mikel在122位Grandmaster中,排名第31(2018年排名)。所以长江后浪推前浪,虽然我们还不算前浪。


【推荐阅读】

【Paper】A Neural Representation of Sketch Drawings(paper
【Fashion-MNIST】Fashion-MNIST: A MNIST-like fashion product database/Fashion-MNIST: a novel image dataset for benchmarking
machine learning algorithms(paper
【Code】Kuzushiji-MNIST&Baseline(github

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章