用BP人工神經網絡識別手寫數字

文章轉自:點擊打開鏈接

圖像預處理

使用下圖(後方稱爲 SAMPLE_BMP)作爲訓練和測試數據來源,下文將講述如何將圖像轉換爲訓練數據。

灰度化和二值化

在字符識別的過程中,識別算法不需要關心圖像的彩色信息。因此,需要將彩色圖像轉化爲灰度圖像。經過灰度化處理後的圖像中還包含有背景信息。因此,我們還得進一步處理,將背景噪聲屏蔽掉,突顯出字符輪廓信息。二值化處理就能夠將其中的字符顯現出來,並將背景去除掉。在一個[0,255]灰度級的灰度圖像中,我們取 196 爲該灰度圖像的歸一化值,代碼如下:
[python] view plain copy
  1. def convert_to_bw(im):  
  2.     im = im.convert("L")  
  3.     im.save("sample_L.bmp")  
  4.     im = im.point(lambda x: WHITE if x > 196 else BLACK)  
  5.     im = im.convert('1')  
  6.     im.save("sample_1.bmp")  
  7.     return im  
下圖是灰度化的圖像,可以看到背景仍然比較明顯,有一層淡灰色:

下圖是二值化的圖像,可以看到背景已經完全去除:

圖片的分割和規範化:

通過二值化圖像,我們可以分割出每一個字符爲一個單獨的圖片,然後再計算相應的特徵值,如下圖所示:

這些圖片是由程序自動進行分割而成,其中用到的代碼片段如下:
[python] view plain copy
  1. def split(im):  
  2.     assert im.mode == '1'  
  3.     result = []  
  4.     w, h = im.size  
  5.     data = im.load()  
  6.     xs = [0235777106135159179205228, w]  
  7.     ys = [0226097150, h]  
  8.     for i, x in enumerate(xs):  
  9.         if i + 1 >= len(xs):  
  10.             break  
  11.         for j, y in enumerate(ys):  
  12.             if j + 1 >= len(ys):  
  13.                 break  
  14.             box = (x, y, xs[i+1], ys[j+1])  
  15.             t = im.crop(box).copy()  
  16.             box = box + ((i + 1) % 10, )  
  17. #           save_32_32(t, 'num_%d_%d_%d_%d_%d'%box)  
  18.             result.append((normalize_32_32(t, 'num_%d_%d_%d_%d_%d'%box), (i + 1) % 10))  
  19.     return result  
其中的 xs 和 ys 分別是橫向和豎向切割的分界點,由手工測試後指定,t = im.crop(box).copy() 代碼行是從指定的區域中“摳”出圖片,然後通過 normalize_32_32 進行規範化。進行規範化是爲了產生規則的訓練和測試數據集,也是爲了更容易地地計算出特徵碼。

產生訓練數據集和測試數據集

爲簡單起見,我們使用了最簡單的圖像特徵——黑色像素在圖像中的分佈來進行訓練和測試。首先,我們把圖像規範化爲 32*32 像素的圖片,然後按 2*2 分切成 16*16 共 256 個子區域,然後統計這 4 個像素中黑色像素的個數,組成 256 維的特徵矢量,如下是數字 2 的一個特徵矢量:
0 0 4 4 4 2 0 0 0 0 0 0 0 0 2 4 0 0 4 4 4 2 0 0 0 0 0 0 0 0 2 4 2 2 4 4 2 1 0 0 0 0 0 0 1 2 3 4 4 4 4 4 0 0 0 0 0 0 0 0 2 4 4 4 4 4 4 4 0 0 0 0 0 0 0 0 2 4 4 4 4 4 0 0 0 0 0 0 0 0 0 0 2 4 4 4 4 4 0 0 0 0 0 0 0 0 0 0 2 4 4 4 4 4 0 0 0 0 0 0 0 4 4 4 4 4 4 4 4 4 0 0 0 0 0 0 0 4 4 4 4 4 4 4 4 4 2 2 2 2 2 2 2 4 4 2 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 0 2 4 4 4 2 2 2 2 4 3 2 2 2 2 2 0 2 4 4 4 0 0 0 0 4 2 0 0 0 0 0 0 2 4 4 4 0 0 0 0 4 2 0 0 0 0 0 0 2 4 4 4 0 0 0 0 0 0 0 0 0 0 0 0 2 4 4 4 0 0 0 0 0 0 0 0 0 0 0 0 2 4 4 4
相應地,因爲我們只需要識別 0~9 共 10 個數字,所以創建一個 10 維的矢量作爲結果,數字相應的維置爲 1 值,其它值爲 0。數字 2 的結果如下:0 0 1 0 0 0 0 0 0 0
我們特徵矢量和結果矢量通過以下代碼計算出來後,按 FANN 的格式把它們存到 train.data 中去:
[python] view plain copy
  1. f = open('train.data''wt')  
  2. print >>f, len(result), 25610  
  3. for input, output in result:  
  4.     print >>f, input  
  5.     print >>f, output  

BP神經網絡

利用神經網絡識別字符是本文的另外一個關鍵階段,良好的網絡性能是識別結果可靠性的重要保證。這裏就介紹如何利用BP 神經網絡來識別字符。反向傳播網絡(即:Back-Propagation Networks ,簡稱:BP 網絡)是對非線性可微分函數進行權值訓練的多層前向網絡。在人工神經網絡的實際應用中,80%~90%的模型採用 BP 網絡。它主要用在函數逼近,模式識別,分類,數據壓縮等幾個方面,體現了人工神經網絡的核心部分。

網絡結構

網絡結構的設計是根據輸入結點和輸出結點的個數和網絡性能來決定的,如下圖。本實驗中的標準待識別字符的大小爲 32*32 的二值圖像,即將 1024 個像素點的圖像轉化爲一個 256 維的列向量作爲輸入。由於本實驗要識別出10 個字符,可以將目標輸出的值設定爲一個10 維的列向量,其中與字符相對應那個位爲1,其他的全爲0 。根據實際經驗和試驗確定,本文中的網絡隱含層結點數目爲64。因此,本文中的BP 網絡的結構爲 256-64-10。

訓練結果

本實驗中的採用的樣本個數爲 50 個,將樣本圖像進行預處理,得到處理後的樣本向量P,再設定好對應的網絡輸出目標向量T,把樣本向量 P 和網絡輸出目標向量 T 都保存到 train.data 文件中。設置好網絡訓練參數,對網絡進行訓練和測試,並將最佳的一個網絡權值保存到 number_char_recognize.net 文件中。下面就將本文中設置和訓練網絡參數的程序列舉如下:
[python] view plain copy
  1. connectionRate = 1  
  2. learningRate = 0.008  
  3. desiredError = 0.001  
  4. maxIterations = 10000  
  5. iterationsBetweenReports = 100  
  6. inNum= 256  
  7. hideNum = 64  
  8. outNum=10  
  9. class NeuNet(neural_net):  
  10.     def __init__(self):  
  11.         neural_net.__init__(self)  
  12.         neural_net.create_standard_array(self,(inNum, hideNum, outNum))  
  13.   
  14.           
  15.     def train_on_file(self,fileName):  
  16.         neural_net.train_on_file(self,fileName,maxIterations,iterationsBetweenReports,desiredError)  
可以從代碼中看到我們建立起一個輸出層有 256 個神經元,隱藏層有 64 個神經元,輸出層有 10 個神經元的ANN,其中神經層的連接率爲 100%,學習率爲 0.28,最大進行 10000 次迭代,並每隔 100 次報告一下學習結果。
[python] view plain copy
  1. if __name__ == "__main__":  
  2.     ann = NeuNet()  
  3.     ann.train_on_file("train.data")  
  4.     ann.save("number_char_recognize2.net")  
按照上面的程序,對網絡進行訓練和仿真測試,保存訓練性能最好的一組網絡權值,並保存到起來。

通過 666 次迭代之後,錯誤率已經低於 0.001,學習中止,並將結果保存起來。

測試結果

實驗的測試是通過從保存好的 NN 數據文件中創建 NN 的形式來實驗的,具體的代碼如下:
[python] view plain copy
  1. if __name__ == "__main__":  
  2.     ann = NeuNet()  
  3.     ann.create_from_file("number_char_recognize.net")  
  4.     data = read_test_data()  
  5.     for k, v in data.iteritems():  
  6.         k = string_to_list(k)  
  7.         v = string_to_list(v)  
  8.         result = ann.run(k)  
  9.         print euclidean_distance(v, result)  
其實 ann.create_from_file 是從文件中讀取存檔,創建人工神經網絡,然後使用 read_test_data 函數讀取測試數據,並通過循環對每一個測試數據和相應的期望值轉換爲 NN 的輸入格式,然後使用 ann.run 函數調用神經網絡測試,對測試結果與期望值進行歐氏距離計算,對其中的兩個測試用例,果如下:

可見兩個向量的歐氏距離已經接近於 0,識別效果非常好。

小結

本文爲該項研究的初步實驗階段,由於樣本字符的數目較少,選取了50 個樣本用來訓練,對10 個待檢數字字符進行識別和仿真,成功識別出字符的個數爲9 個,識別效率爲90.0%。對於神經網絡而言,在這樣少的訓練樣本的情況下,能夠取的這種效果已經比較成功,表明該方法具有較好識別性能
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章