CNOCR：測試集準確率最高98%，自帶識別模型的中文OCR包

原創

2020-06-16 11:51

今天 Gitee 爲大家介紹的是一款中文 OCR 包。大家都知道，訓練模型是一件非常費時費力的事情，但今天這款項目已經自帶訓練好的識別模型，我們只需要下載下來使用即可，可以說是非常方便了，那麼下面我們就去看看這個項目的詳細信息吧。

項目名稱：cnocr

項目作者：cyahua

開源許可協議：Apache-2.0

項目簡介

cnocr是用來做中文OCR的Python 3包。cnocr自帶了訓練好的識別模型，安裝後即可直接使用。

cnocr主要針對的是排版簡單的印刷體文字圖片，如截圖圖片，掃描件等。cnocr目前內置的文字檢測和分行模塊無法處理複雜的文字排版定位。如果要用於場景文字圖片的識別，需要結合其他的場景文字檢測引擎使用。

示例

可直接使用的模型

cnocr的ocr模型可以分爲兩階段：第一階段是獲得ocr圖片的局部編碼向量，第二部分是對局部編碼向量進行序列學習，獲得序列編碼向量。目前兩個階段分別包含以下的模型：

局部編碼模型（emb model）
1. conv：多層的卷積網絡；
2. conv-lite：更小的多層卷積網絡；
3. densenet：一個小型的densenet網絡；
4. densenet-lite：一個更小的densenet網絡。
序列編碼模型（seq model）
1. lstm：兩層的LSTM網絡；
2. gru：兩層的GRU網絡；
3. fc：兩層的全連接網絡。

cnocr目前包含以下可直接使用的模型，訓練好的模型都放在 cnocr-models 項目中，可免費下載使用：

特色

本項目的初期代碼fork自 crnn-mxnet-chinese-text-recognition，感謝作者。

但源項目使用起來不夠方便，所以我在此基礎上做了一些封裝和重構。主要變化如下：

如果你對這個項目感興趣，想要親自試一試識別的效果的話，可以點擊後面的鏈接前往項目主頁看看，如果覺得不錯記得給它一個 Star 哦：https://gitee.com/cyahua/cnocr

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.