Tesseract-OCR識別中文之---訓練自定義字庫生成語言包

原創

Aron锅

2018-11-04 00:23

在之前已經說明過識Tessract-OCR識別(手寫|通用字體)中文了,只不過使用的是官方的漢字庫,

https://blog.csdn.net/weixin_37794901/article/details/83343092;

若想提高針對幾個漢字的識別,可以自己訓練文字庫生成語言包,這裏採用的是比較智障的方式手動機器訓練哈;

1.工具:

1)安裝好Tesseract-OCR 2)訓練工具 jTessBoxEditor (需Java環境),具體如何使用可以網上撈;

2.demo(window10環境)

1)將測試的圖片(帶有中文的)轉換成tiff格式:https://www.aconvert.com/cn/image/jpg-to-tiff/

2)文件命名的格式:

tif文面命名格式[lang].[fontname].exp[num].tif,

lang是語言 fontname是字體,比如我們要訓練自定義字庫 mjorcen字體名normal,那麼我們把圖片文件重命名 mjorcen.normal.exp0.jpg在轉tif。

3)生成box文件

進入tesseract安裝目錄,dos命令:

tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 -l chi_sim batch.nochop makebox

4)打開校驗工具,訓練文字

dos命令:

tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 nobatch box.train

unicharset_extractor mjorcen.normal.exp0.box

5)新建一個font_properties文件

dos命令:echo normal 0 0 0 0 0 >fileName_properties

6) 生成語言包

dos命令:

shapeclustering -F font_properties -U unicharset mjorcen.normal.exp0.tr

mftraining -F font_properties -U unicharset -O unicharset mjorcen.normal.exp0.tr

cntraining mjorcen.normal.exp0.tr

將生成的unicharset、inttemp、pffmtable、shapetable、normproto這五個文件前面都加上normal. 方便合成

combine_tessdata normal.

最後得到:

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Tesseract-OCR識別中文之---訓練自定義字庫生成語言包

1.工具:

2.demo(window10環境)

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

Dokcer部署Kafka集羣

【Linux命令學習】lsof查看打開的文件

SSM整合quartz框架-動態設置定時任務的實現

Mysql 查詢優化,排序,特殊使用等-年度總結

SSM整合 redis 實現緩存管理

springMVC ：HandlerMethodArgumentResolver+ 自定義註解,自定義解析器實現請求數據綁定方法入參

mysql支持emoji字符

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結