【總結】cnn+bilstm+lstm 訓練的一些技巧

預處理:

BLSTM 分爲兩類,第一類不支持變長輸入,第二類支持變長輸入. 顯然,由於我們的手寫體文本行的長度都是不固定的,所以採用的是支持變長輸入的BLSTM. 這裏的變長 不是指任意長度,而是多個固定長寬。
根據CASIA-HWDB2.0-2. 2 數據集中文本行圖片的大小,採取的固定長寬分別爲:
[240,130]、[400,180]、[560,180]、[640,180]、[800,180]、[950,200]、[1030,200]、[1210,180]、[1290,200 ]、[1370, 200]、[1450,200]、[1530,200]、[1610,180]、[1700,130]、[1700,170]、[1700,220]、[1800,130]、[1800,170]、[1800, 220]、[1800,300]、[1900,130]、[1900,170]、[1900,220]、[1900,300]、[2000,150]、[2000,220][2000,300]、[2100, 150]、[2100,220]、[2100,300]、[2200,260]、[2300,260]、[2600, 500]

根據圖片的大小,從前往後判斷當前圖片的長寬所處的邊界範圍. 如果圖片長和寬恰巧等於邊界值,則不需改變圖片; 否則需要根據邊界的大小,將圖片的右側和下方加白邊; 將圖片大小超過[2600, 500]邊界的圖片直接歸一化爲[2600, 500]. 這樣就把所有的圖片按照大小分成33 類.並且爲了高效的進行訓練,把所有分類過後的圖片進行歸一化,長和寬分別設置爲當前圖片的二分之一(也就是進行一次resize,使得圖片縮小,這樣便於進行訓練,也節省了空間和時間!!)

這篇論文的網址Attention 機制在脫機中文手寫體文本行識別中的應用

如果使用其他的數據集:

【Text Transcriptor】訓練CRNN時,關於ctc_loss的幾點注意事項

另外的一個crnn訓練總結文:
原文鏈接: 建議看原文,我是怕原文掛了,才做一個轉載備份一下。。。
https://www.cnblogs.com/shouhuxianjian/p/8036105.html
轉載鏈接: crnn的一些訓練技巧

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章