實戰 | CNN+BLSTM+CTC的驗證碼識別從訓練到部署

實戰 | CNN+BLSTM+CTC的驗證碼識別從訓練到部署

項目傳送門:

https://github.com/kerlomz/captcha_trainer

1

前言

本項目適用於Python3.6,GPU>=NVIDIA GTX1050Ti,原master分支已經正式切換爲CNN+LSTM+CTC的版本了,是時候寫一篇新的文章了。
長話短說,開門見山,網絡上現有的代碼以教學研究爲主,本項目是爲實用主義者定製的,只要基本的環境安裝常識,便可很好的訓練出期望的模型,重定義幾個簡單的參數任何人都能使用機器學習技術訓練一個商業化成品。
最新更新(2019/01/21):
如果對於DLL調用感興趣或是其他語言的TensorFlow API感興趣的移步以下兩個項目:


  1. https://github.com/kerlomz/captcha_library_c
  2. https://github.com/kerlomz/captcha_demo_csharp

    筆者選用的時下最爲流行的CNN+BLSTM+CTC進行端到端的不定長驗證碼識別,代碼中預留了DenseNet+BLSTM+CTC的選項,可以在配置中直接選用。首先,介紹個大概吧。
    實戰 | CNN+BLSTM+CTC的驗證碼識別從訓練到部署
    H16/H64指的是Bi-LSTM的隱藏神經元個數num_units,這裏注意,你沒有看錯,也沒有寫反,LSTM有時序依賴,tf.contrib.rnn.LSTMCell的實現沒能很充分的利用GPU的計算資源,底層kernel函數之間的間隙非常大,不利於充分的利用 GPU 的並行性來進行計算。所以本項目使用GPU訓練,使用CPU進行預測。預測服務部署項目源碼請移步此處:https://github.com/kerlomz/captcha_platform

2

環境依賴

關於CUDA和cuDNN版本的問題,不少人很糾結,這裏就列出官方通過pip安裝的TensorFlow的版本對應表:

Linux

實戰 | CNN+BLSTM+CTC的驗證碼識別從訓練到部署

Windows

實戰 | CNN+BLSTM+CTC的驗證碼識別從訓練到部署

如果希望使用上面對應之外的搭配的CUDA和cuDNN,可以自行編譯TensorFlow,或者去Github上搜索TensorFlow Wheel找到第三方編譯的對應版本的whl安裝包。提前預警,若是自己編譯將會苦難重重,坑很多,這裏就不展開了。

2.1 本項目環境依賴

目前在以下主流操作系統平臺均測試通過:

實戰 | CNN+BLSTM+CTC的驗證碼識別從訓練到部署

本訓練項目主要的環境依賴清單如下

實戰 | CNN+BLSTM+CTC的驗證碼識別從訓練到部署

2.1.1 Ubuntu 16.04 下的 Python 3.6

1)先安裝Python環境

sudo apt-get install openssl  
sudo apt-get install libssl-dev
sudo apt-get install libc6-dev gcc  
sudo apt-get install -y make build-essential zlib1g-dev libbz2-dev libreadline-dev $ libsqlite3-dev wget curl llvm tk-dev 
wget https://www.python.org/ftp/python/3.6.6/Python-3.6.6.tgz
tar -vxf Python-3.6.6.tar.xz
cd Python-3.6.6
./configure --prefix=/usr/local  --enable-shared
make -j8
sudo make install -j8

經過上面指令就安裝好Python3.6環境了,如果提示找不到libpython3.6m.so.1.0就到/usr/local/lib路徑下將該文件複製一份到/usr/lib和/usr/lib64路徑下。

2)安裝相關依賴(這一步Windows和Linux通用)

可以直接在項目路徑下執行pip3 install -r requirements.txt安裝所有依賴,注意這一步是安裝在全局Python環境下的,強烈建議使用虛擬環境進行項目間的環境隔離,如Virtualenv或Anaconda等等。
我一般使用的是Virtualenv,有修改代碼需要的,建議安裝
PyCharm作爲Python IDE

virtualenv -p /usr/bin/python3 venv # venv is the name of the virtual environment.
cd venv/ # venv is the name of the virtual environment.
source bin/activate # to activate the current virtual environment.
cd captcha_trainer # captcha_trainer is the project path.
pip3 install -r requirements.txt

2.1.2 Ubuntu 16.04 下的 CUDA/cuDNN

網上看到過很多教程,我自己也部署過很多次,Ubuntu 16.04遇到的坑還是比較少的。14.04支持就沒那麼好,如果主板不支持關閉SecureBoot的話千萬不要安裝Desktop版,因爲安裝好之後一定會無限循環在登陸界面無法進入桌面。
網上教程說要加驅動黑名單什麼的我直接跳過了,親測沒那個必要。就簡單的幾步:

1. 下載好安裝包

注意下載runfile類型的安裝包,deb安裝會自動安裝默認驅動,極有可能導致登陸循環
NVIDIA 驅動下載:
https://www.geforce.cn/drivers
CUDA 下載地址:
https://developer.nvidia.com/cuda-downloads
cuDNN 下載地址:
https://developer.nvidia.com/cudnn
(需要註冊NVIDIA賬號且登陸,下載deb安裝包)






2. 關閉圖形界面

Ctrl+alt+F1進入字符界面,關閉圖形界面
sudo service lightdm stop

3. 安裝Nvidia Driver

命令中的版本自己對應下載的版本改,在上面的下載地址根據自己的顯卡型號下載最新版,切記是runfile格式的安裝包。

sudo chmod a+x NVIDIA-Linux-x86_64-384.90.run //獲取執行權限
sudo ./NVIDIA-Linux-x86_64-384.90.run –no-x-check –no-nouveau-check –no-opengl-files //安裝驅動

安裝成功以後使用以下命令驗證,如果顯示顯卡信息則表示安裝成功

nvidia-smi

4. 安裝CUDA

1)先安裝一些系統依賴庫

sudo apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev
  • 執行安裝程序,按指示無腦繼續就好了,如果提示是否安裝驅動選不安裝。
sudo sh cuda_9.0.176_384.81_linux.run

安裝完如果環境變量沒配上去,就寫到 ~/.bashrc 文件的尾部

export PATH=/usr/local/cuda-9.0/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

然後在終端執行 sudo ldconfig更新,安裝完畢就可以重啓機器重啓圖形界面了。

sudo service lightdm start

2.1.3 Windows 系統

在Windows其實簡單很多,只要到官網下載安裝包無腦安裝就可以了,下載連接同Ubuntu,先安裝Python,顯卡驅動,CUDA,然後下載對應的cuDNN替換到對應路徑即可。

花了超長篇幅介紹了訓練環境的基本搭建,主要是給尚未入門的讀者看的,老鳥們隨便跳過

3

使用

入手的第一步環境搭建好了,那就是準備跑代碼了,還是有幾個必要的條件,巧婦難爲無米之炊,首先,既然是訓練,要先有訓練集,有一個新手嚐鮮的訓練集,是mnist手寫識別的例子,可以在騰訊雲下載:https://share.weiyun.com/5pzGF4V,現在萬事俱備,只欠東風

3.1 定義一個模型

本項目採用的是參數化配置,不需要改動任何代碼,可以訓練幾乎任何字符型圖片驗證碼,下面從兩個配置文件說起:

# - requirement.txt  -  GPU: tensorflow-gpu, CPU: tensorflow
# - If you use the GPU version, you need to install some additional applications.
# TrainRegex and TestRegex: Default matching apple_20181010121212.jpg file.
# - The Default is .*?(?=_.*\.)
# TrainsPath and TestPath: The local absolute path of your training and testing set.
# TestSetNum: This is an optional parameter that is used when you want to extract some of the test set
# - from the training set when you are not preparing the test set separately.
System:
  DeviceUsage: 0.7
  TrainsPath: 'E:\Task\Trains\YourModelName\'
  TrainRegex: '.*?(?=_)'
  TestPath: 'E:\Task\TestGroup\YourModelName\'
  TestRegex: '.*?(?=_)'
  TestSetNum: 1000

# CNNNetwork: [CNN5, DenseNet]
# RecurrentNetwork: [BLSTM, LSTM]
# - The recommended configuration is CNN5+BLSTM / DenseNet+BLSTM
# HiddenNum: [64, 128, 256]
# - This parameter indicates the number of nodes used to remember and store past states.
NeuralNet:
  CNNNetwork: CNN5
  RecurrentNetwork: BLSTM
  HiddenNum: 64
  KeepProb: 0.98

# SavedSteps: A Session.run() execution is called a Steps,
# - Used to save training progress, Default value is 100.
# ValidationSteps: Used to calculate accuracy, Default value is 100.
# TestNum: The number of samples for each test batch.
# - A test for every saved steps.
# EndAcc: Finish the training when the accuracy reaches [EndAcc*100]%.
# EndEpochs: Finish the training when the epoch is greater than the defined epoch.
Trains:
  SavedSteps: 100
  ValidationSteps: 500
  EndAcc: 0.975
  EndEpochs: 1
  BatchSize: 64
  TestBatchSize: 400
  LearningRate: 0.01
  DecayRate: 0.98
  DecaySteps: 10000

上面看起來好多好多參數,其實大部分可以不用改動,你需要修改的僅僅是訓練集路徑就可以了,注意:如果訓練集的命名格式和我提供的新手訓練集不一樣,請根據實際情況修改TrainRegex和TestRegex的正則表達式。,TrainsPath和TestPath路徑支持list參數,允許多個路徑,這種操作適用於需要將多種樣本訓練爲一個模型,或者希望訓練一套通用模型的人。爲了加快訓練速度,提高訓練集讀取效率,特別提供了make_dataset.py來支持將訓練集打包爲tfrecords格式輸入,經過make_dataset.py打包之後的訓練集將輸出到本項目的dataset路徑下,只需修改TrainsPath鍵的配置如下即可

TrainsPath: './dataset/xxx.tfrecords'

TestPath是允許爲空的,如果TestPath爲空將會使用TestSetNum參數自動劃分出對應個數的測試集。如果使用自動劃分機制,那麼TestSetNum測試集總數參數必須大於等於TestBatchSize測試集每次讀取的批次大小。
神經網絡這塊可以講一講,默認提供的組合是CNN5(CNN5層模型)+BLSTM(Bidirectional LSTM)+CTC,親測收斂最快,但是訓練集過小,實際圖片變化很大特徵很多的情況下容易發生過擬合。DenseNet可以碰運氣在樣本量很小的情況下很好的訓練出高精度的模型,爲什麼是碰運氣呢,因爲收斂快不快隨機的初始權重很重要,運氣好前500步可能對測試集就有40-60%準確率,運氣不好2000步之後還是0,收斂快慢是有一定的運氣成分的。

NeuralNet:
  CNNNetwork: CNN5
  RecurrentNetwork: BLSTM
  HiddenNum: 64
  KeepProb: 0.99

隱藏層HiddenNum筆者嘗試過8~64,都能控制在很小的模型大小之內,如果想使用DenseNet代替CNN5直接修改如上配置中的CNNNetwork參數替換爲:

NeuralNet:
  CNNNetwork: DenseNet
  ......

model.yaml # 模型配置

# ModelName: Corresponding to the model file in the model directory,
# - such as YourModelName.pb, fill in YourModelName here.
# CharSet: Provides a default optional built-in solution:
# - [ALPHANUMERIC, ALPHANUMERIC_LOWER, ALPHANUMERIC_UPPER,
# -- NUMERIC, ALPHABET_LOWER, ALPHABET_UPPER, ALPHABET]
# - Or you can use your own customized character set like: ['a', '1', '2'].
# CharExclude: CharExclude should be a list, like: ['a', '1', '2']
# - which is convenient for users to freely combine character sets.
# - If you don't want to manually define the character set manually,
# - you can choose a built-in character set
# - and set the characters to be excluded by CharExclude parameter.
Model:
  Sites: []
  ModelName: YourModelName-CNN5-H64-150x50
  ModelType: 150x50
  CharSet: ALPHANUMERIC_LOWER
  CharExclude: []
  CharReplace: {}
  ImageWidth: 150
  ImageHeight: 50

# Binaryzation: [-1: Off, >0 and < 255: On].
# Smoothing: [-1: Off, >0: On].
# Blur: [-1: Off, >0: On].
# Resize: [WIDTH, HEIGHT]  
# - If the image size is too small, the training effect will be poor and you need to zoom in.
# - ctc_loss error "No valid path found." happened
Pretreatment:
  Binaryzation: -1
  Smoothing: -1
  Blur: -1

上述的配置只要關注
ModelName、CharSet、ImageWidth、ImageHeight
首先給模型取一個好名字是成功的第一步,字符集CharSet其實大多數情況下不需要修改,一般的圖形驗證碼離不開數字和英文,而且一般來說是大小寫不敏感的,不區分大小寫,因爲打碼平臺收集的訓練集質量參差不齊,有些大寫有些小寫,不如全部統一爲小寫,默認ALPHANUMERIC_LOWER則會自動將大寫的轉爲小寫,字符集可定製化很靈活,除了配置備註上提供的幾種類型,還可以訓練中文,自定義字符集用list表示,示例如下:

CharSet: ['常', '世', '寧', '慢', '南', '制', '根', '難']

可以自己根據收集訓練集的實際字符集使用率來定義,也可以無腦網上找3500常用字來訓練,注意:中文字符集一般比數字英文大很多,剛開始收斂比較慢,需要更久的訓練時間,也需要更多的樣本量,請量力而行
實戰 | CNN+BLSTM+CTC的驗證碼識別從訓練到部署

形如上圖的圖片能輕鬆訓練到95%以上的識別率。

ImageWidth、ImageHeight只要和當前圖片尺寸匹配即可,其實這裏的配置主要是爲了方便後面的部署智能策略。
其他的如Pretreatment之下的參數是用來做圖片預處理的,因爲筆者致力於做一套通用模型,模型只使用了灰度做預處理。其中可選的二值化、均值濾波、高斯模糊均未開啓,即使不進行那些預處理該框架已經能夠達到很理想的識別效果了,筆者自用的大多數模型都是98%以上的識別率。

3.2 開始訓練

按照上面的介紹,配置只要修改極少數的參數對應的值,就可以開啓正式的訓練之旅了,具體操作如下:
可以直接使用PyCharm的Run,執行trains.py,也可以在激活Virtualenv下使用終端亦或在安裝依賴的全局環境下執行

python3 trains.py

剩下的就是等了,看過程,等結果。
正常開始訓練的模樣應該是這樣的:

實戰 | CNN+BLSTM+CTC的驗證碼識別從訓練到部署
訓練結束會在項目的out路徑下生成一個pb和yaml文件,下面該到部署環節了。

3.3 部署

真的很有必要認真的介紹一下部署項目,比起訓練,這個部署項目傾注了筆者更多的心血,爲什麼呢?
項目地址:
https://github.com/kerlomz/captcha_platform
真的值得了解的幾點


  1. 同時管理多個模型,支持模型熱拔插
  2. 靈活的版本控制
  3. 支持批量識別
  4. 服務智能路由策略

    首先筆者重寫了Tensor Flow的Graph會話管理,設計會話池,允許同時管理多模型,實現多模型動態部署方案。

    1)訓練好的pb模型只要放在部署項目的graph路徑下,yaml模型配置文件放在model,即可被服務發現並加載,
    2)如果需要卸載一個正在服務的模型,只需要在model中刪除該模型的yaml配置文件,在graph中刪除對應的pb模型即可。
    3)如果需要更新一個已經服務中的模型,只需修改新版的模型yaml配置文件的版本號高於原模型的版本號,按先放pb後放yaml的順序,服務便會自動發現新版的模型並加載使用,舊的模型將因版本低於新版模型不會被調用,可以按照上述的卸載方法卸載已被棄用的模型釋放內存。

上面的操作中無需重啓服務,完全的無縫切換

Linux:

  1. Tornado:
# 端口 19952
python3 tornado_server.py
  1. Flask
# 方案1,裸啓動, 端口 19951
python flask_server.py 
# 方案2,使用gunicorn,端口 5000
pip install gunicorn 
gunicorn -c deploy.conf.py flask_server:app
  1. Sanic:
# 端口 19953
python3 sanic_server.py
  1. gRPC:
# 端口 50054
python3 grpc_server.py

Windows:

Windows平臺下都是通過python3 xxx_server.py啓動對應的服務,注意,Tornado、Flask、Sanic的性能在Windows平臺都大打折扣,gRPC是Google開源的RPC服務,有較爲優越的性能。

3.4 調用/測試

1. Flask服務:

實戰 | CNN+BLSTM+CTC的驗證碼識別從訓練到部署

具體參數:

實戰 | CNN+BLSTM+CTC的驗證碼識別從訓練到部署

請求爲JSON格式,形如:{"image": "base64編碼後的圖像二進制流"}

返回結果:

實戰 | CNN+BLSTM+CTC的驗證碼識別從訓練到部署
該返回爲JSON格式,形如:{"message": "xxxx", "code": 0, "success": true}

2. Tornado服務:

實戰 | CNN+BLSTM+CTC的驗證碼識別從訓練到部署

請求參數和返回格式同上

3. Sanic服務:

實戰 | CNN+BLSTM+CTC的驗證碼識別從訓練到部署

請求參數和返回格式同上

4. gRPC服務:

需要安裝依賴,grpcio、grpcio_tools和對應的grpc.proto文件,可以直接從項目中的示例代碼demo.py中提取。

class GoogleRPC(object):

    def __init__(self, host: str):
        self._url = '{}:50054'.format(host)
        self.true_count = 0
        self.total_count = 0

    def request(self, image, model_type=None, model_site=None):

        import grpc
        import grpc_pb2
        import grpc_pb2_grpc
        channel = grpc.insecure_channel(self._url)
        stub = grpc_pb2_grpc.PredictStub(channel)
        response = stub.predict(grpc_pb2.PredictRequest(
            image=image, split_char=',', model_type=model_type, model_site=model_site
        ))
        return {"message": response.result, "code": response.code, "success": response.success}

if __name__ == '__main__':
    result = GoogleRPC().request("base64編碼後的圖片二進制流")
    print(result)

3.5 奇技淫巧

該項目還可以直接用於識別帶顏色的圖片,本質是不同的顏色分別訓練,調用的時候通過傳參區分,如果希望獲得圖片中紅色的文字,就直接通過參數定位到訓練紅色的模型,希望獲取圖片中藍色的圖片就通過參數定位到藍色模型,如:

實戰 | CNN+BLSTM+CTC的驗證碼識別從訓練到部署

實戰 | CNN+BLSTM+CTC的驗證碼識別從訓練到部署

不過這種操作對樣本量要求較高,且效率不高,當顏色參數越來越多時就不適用,可以採用顏色提取的方式,這樣所需要的樣本量將大大減少,但對於顏色提取算法效果要求高了。還有一種方案是同時預測驗證碼和每個字符對應的顏色,不過這需要修改現有的神經網絡進行支持,在最後一層修改爲雙輸出,一個輸出顏色,一個輸出對應字符,這對於樣本標註的要求較高,也提高的成本,所以如果能用無限生成樣本,那問題就迎刃而解了,比如上圖,筆者就寫了樣本生成代碼,感興趣的可以移步:
https://www.jianshu.com/p/da1b972e24f2

其實還有很多很多技巧,例如,用生成的樣本代替訓練集,其實網上的圖片驗證碼大多是採用開源的,稍作修改而已,大多數情況都能被近似生成出來,上述展示的驗證碼圖片不代表任何實際的網站,如有雷同,純屬巧合,該項目只能用於學習和交流用途,不得用於非法用途。

4

最後

項目傳送門:
https://github.com/kerlomz/captcha_trainer
點擊閱讀全文,歡迎star,fork。

題外話:這篇文章是Jerry的好朋友_Coriander的投稿,如果有朋友有不錯的項目文章或者學術分析,歡迎大家添加我微信投稿。
Jerry的算法和NLP,一個注重技術領域的平臺!

實戰 | CNN+BLSTM+CTC的驗證碼識別從訓練到部署

5

往期推薦

Tensorflow的55個經典案例
AutoML綜述
機器學習算法和算法有什麼聯繫(附機器學習實戰PDF)
Tensorflow 3w+star例子帶你學
記得右下角麻煩點個好看噢↓↓↓



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章