機器學習大作業《Kaggle賽題之Kannada MNIST研究》論文和Python代碼

一、賽題概述及分析

1、背景介紹

郵政系統每天都會處理大量的信件,最爲要緊的一環是要根據信件上的收信人郵編進行識別和分類,以便確定信件的投送地。原本這項任務是依靠大量的人工來進行,後來人們嘗試讓計算機來替代人工。然而,因爲多數的郵編都是手寫的數字,並且樣式各異,所以沒有統一編制的規則可以很好地用於識別和分類。

20世紀80年代,美國國家標準與技術研究所(National Institute of Standards and Technology,即NIST)建立了經典的MNIST數據集,該數據集由250個不同人手寫的阿拉伯數字構成,其中50%是高中生,50%來自人口普查局的工作人員,測試集也是相同比例的手寫數字數據。MNIST數據集是機器學習領域的一個經典數據集,該數據集包含6萬張訓練圖像和1萬張測試圖像,其歷史幾乎和這個領域一樣長,而且被人們深入研究。

該賽題的目的是爲經典的基於手寫阿拉伯數字集MNIST競賽提供一個簡單的擴展,且使用了最近發佈的卡納達語數字集。卡納達語是印度西南部卡納塔克邦的官方行政語言,該語言全球有近6000萬人使用,根據印度憲法第344(1)和351條,卡納達語是印度22種語言之一。該語言是使用官方的卡納達語手跡編寫的,該腳本是Brahmic家族的元音附標文字,其起源可追溯到Kadamba手跡(公元325-550),如圖1、圖2所示。

圖1 不同語言數字集對比圖
html>

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章