tesseract_ocr 字符識別基礎及訓練字庫、合併字庫

原創

鈴鐺響叮噹

2019-07-05 14:16

最近公司讓我做文字串識別，通過查閱資料，谷歌的開源框架 tesseract-ocr可以幫助我們進行識別圖像，文字等等，tesseract可以識別多種語言(一些常用的語言)，多種圖片格式，非常強大。

首先體驗一下tesseract的強大功能，先安裝 tesseract_ocr ,下載地址爲http://code.google.com/p/tesseract-ocr/，請務必下載3.0.1版本，我前面下的最新3.0.2版本，生成字符特徵命令不能通過，最後勉強解決了，生成的字典識別出來的都是空字符

安裝完成之後看下根目錄

tessdata文件夾主要存放字典文件，只要把字典文件放進去，就可以用tesseract 識別相關語言的文字

現在先來識別一張圖片

把他放入任意一個文件夾，cmd 命令cd到圖片放置的目錄，然後執行

[html] view plain copy

tesseract 1.jpg 1

可以看到文件夾下生成了一個txt文本，發現識別的效果並不是很理想。爲啥呢，因爲我所用的這個圖片中的字有所變形，我們的圖片和 tesseract 存在的字做匹配，找相近的，但是字典中沒有這種變形的字體，自然識別容易出錯，爲了提高識別率，所以我們需要訓練一套字體來提高識別率

訓練字庫還需要一個工具jTessBoxEditor，下載地址爲 http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

現在我們來實戰一下，首先要生成一個 .tif 的圖片集，我們使用 jTessBoxEditor 來合併多張格式爲tif的圖片

1、打開 jTessBoxEditor，選擇tools->merge tif ,選擇 tif圖片，生成一個格式爲tif的圖片集

2、我生成一個名爲 why4.tif 的圖片集，進入 cd進入 why4.tif 所在的目錄，生成對應的 .box 文件

執行命令

[html] view plain copy

tesseract why.tif why4 batch.nochop makebox

這個文件是通過 tesseract 識別出來的，標示了圖片集中文字的位置，大小，識別後的字符結果。

3、調整，因爲 tesseract 識別的不準確，所以我們用 jTessBoxEditor來調整識別文字的位置、結果。

用 jTessBoxEditor打開生成的圖片集why4.tif ,注意 why4.tif 對應的box文件一定要和他處於同一個文件夾下(請保持文件名)，否則，用jTessBoxEditor打開沒有位置、識別結果等信息，然後就可以調整了，調整完之後保存

4、生成.tr文件

[html] view plain copy

tesseract why4.tif why4 nobatch box.train

5、計算字符集,從生成的 box文件中提取

[html] view plain copy

unicharset_extractor why4.box

6、生成字體特徵文件，現在文件夾下新建任意文件名的特徵文件，裏面的內容格式爲

[html] view plain copy

<fontname> <italic> <bold> <fixed> <serif> <fraktur>

fontname爲字體名稱，保持和圖片集文件 .tif 和.box文件的前綴名一致，italic> 、<bold> 、<fixed> 、<serif>、 <fraktur>的取值爲1或0，表示字體是否具有這些屬性。

例如我新建了一個名爲 font，內容爲

[html] view plain copy

why4 0 0 0 0 0

的文件

輸入命令

[html] view plain copy

mftraining -F font -U unicharset why4.tr
【特別說明：本次如果不只是font文件的類型，不全名的話可能會mftraining 報錯】
正確的：mftraining -F font.txt -U unicharset why4.tr

7 、聚集tesseract 識別的訓練文件

[html] view plain copy

cntraining why4.tr

執行完這一步之後發現文件夾下生產了許多文件，把unicharset, inttemp, normproto, pfftable這幾個文件加上前綴 why4.

8、最後一步，合併相關文件，生成字典文件

[html] view plain copy

combine_tessdata why4.

好了，至此字典文件就生產了，我們把生成的字典文件why4.traineddata放入到 tesseract_ocr 根目錄下的 tessdata文件夾下

開始使用我們訓練過得字體庫

隨便找一張圖片測試一下

[html] view plain copy

tesseract 13.jpg 13 -l why4

可以看到，效果好了許多

說了這麼多，生成一個字庫還是挺麻煩的，尤其是調整，看得我眼睛都花了，心情煩躁，好不容易做好了一個字庫，但是不夠，還要多添加一些訓練內容進去該怎麼辦呢，經過我的研究，終於找到了3.0.1版本合併字庫的方法

首先，需要生成的字符集.tif文件，位置文件 .box ,只要有這兩個文件在，就可以合併字典

好了，我現在有三個需要合併的字典 why3 why4 why5，他他們的名字修改爲 name.num 的形式，分別改爲 why.3 why.4 why.5

1、先生成相對應的 .tr 文件

[html] view plain copy

tesseract why.3.tif why.3 nobatch box.train
tesseract why.4.tif why.4 nobatch box.train
tesseract why.5.tif why.5 nobatch box.train

2、從所有文件中提取字符

[html] view plain copy

unicharset_extractor why.3.box why.4.box why.5.box

3、生成字體特徵文件

新建的font文件中把所有box文件對應的字體特徵都加進去

[html] view plain copy

why.4 0 0 0 0 0
why.3 0 0 0 0 0
why.5 0 0 0 0 0

[html] view plain copy

mftraining -F font -U unicharset why.3.tr why.4.tr why.5.tr

4 、聚集所有.tr 文件

[html] view plain copy

cntraining why.3.tr why.4.tr why.5.tr

6 、重命名文件，我把unicharset, inttemp, normproto, pfftable 這幾個文件加了前綴why.

7、合併所有文件生成一個大的字庫文件

[html] view plain copy

combine_tessdata why.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

三國戰記

諸亮 001a.gif 002b.gif 003c.gif 004d.gif 005e.gif 006f.gif 007g.gif 008h.gif

2020-07-08 09:14:19

使用Python打開webp等格式圖片

問題今天處理圖片的時候發現有一張後綴爲.jpg的圖片在電腦上無法打開，但是使用Chrome瀏覽器能打開。嘗試用OpenCV讀取，但是也無法打開。仔細查看了OpenCV支持的圖片格式： Windows bitmaps - *.b

2020-07-08 05:01:10

android學習之---屏幕知識

android屏幕知識點 1,基本概念（1）分辨率：分辨率就是屏幕像素點的個數，android手機常見的分辨率有480*800,720*1280,1080*1920等；如，480*800，就是指這個屏幕寬有480個像素，高有800個像素

2020-07-07 17:03:03

GIMP 2.10.12圖片背景透明處理

程序員做圖片頭疼，有時候遇到又沒有辦法。。。。 1.魔法棒選擇背景區域 2.右鍵圖層=》透明=》添加到透明通道，然後ctrl+x剪切到選擇的背景。 3.導出就可以了

2020-07-07 11:59:33

iOS8.0圖片PhotoKit筆記

PhotoKit 一、常用類介紹 PHAsset:代表照片庫中的一個資源，普通圖片、livephoto或者視頻 PHFetchOptions:獲取資源時的參數 PHFetchResult:表示一系列的資源集合，也可以是相冊的集合

2020-07-07 10:51:41

圖片與二進制互轉

/// <summary> /// Image轉二進制 /// </summary> /// <param name="img">圖片</param> ///

2020-07-06 17:11:37

[轉載]利用echarts將圖片寫入excel中

參考博客：點擊跳轉使用poi-3.10.1版本jar包參考博客中代碼寫了一個測試，發現可行 import org.apache.poi.hssf.usermodel.HSSFClientAnchor; import org.apac

2020-07-06 16:45:54

android實現二維碼，並將二維碼保存至SD卡

利用開源zxing(http://code.google.com/p/zxing/)項目生成二維碼 1.下載zxing的核心包，core.jar,一般在網上沒有直接提供此jar文件的下載，後面我將會上傳，在項目根目錄下建立libs文件夾，

2020-07-06 13:05:40

利用java語言獲得某個文件夾下符合條件的所有文件

今天突發奇想，想把手機中的微信中曾經的發過的圖片和音頻全部弄出來，最後發現靠點擊文件夾然後copy這個方法太困難了，看過微信文件夾的童鞋們都知道，所有的圖片和音頻都存在不同的文件夾中，這就是我寫這個程序的程序的初衷。 /*Author:b

2020-07-06 06:46:26

H5保存圖片到本地和預覽

H5的話通過A鏈接我們可以實現圖片的下載和預覽圖片下載方法動態創建A鏈接，添加download屬性和href屬性，並觸發點擊事件， let alink = document.createElement('a'); alink.

陈小白_weilin

2020-07-06 05:47:48

照片預覽的scrollView控件

class PhotoWallBigImageController: UIViewController, UIScrollViewDelegate { //第幾張照片 var index:Int? //所有

2020-07-06 04:20:17

MarkDown圖片大小處理

文章鏈接： http://blog.csdn.net/yhl_leo/article/details/50099843 MarkDown裏顯示圖片的方式可以引入HTML方法：以512×512的lena圖像爲例：直接以Ma

2020-07-06 03:38:45

利用firebase+hexo搭建個人博客網站

title: 記錄一下博客的由來 date: 2020-07-02 15:11:24 tags: firebase 1.前言這個博客是於2020年7月2日創建的。使用的是hexo博客框架+firebase hosting 託

2020-07-08 03:26:06

文件夾創建刪除和判斷

CreateDirectory(L"./123", NULL);//創建文件夾 RemoveDirectory(L"./123");//刪除文件夾 PathIsDirectoryEmpty();判斷文件夾是否爲空 2. C++

2020-07-08 09:46:01

Win10系統此電腦隱藏特定文件夾

Win10系統此電腦有一些額外的文件夾，它們分別：視頻、圖片、文檔、下載、音樂、桌面、3D對象。對於有強迫症的人實屬難受，今天我就教大家如何隱藏這幾個文件夾。 1.隱藏文件夾步驟一隱藏包含視頻、圖片、文檔、下載、音樂、桌面六個文件夾。

2020-07-06 11:50:26

24小時熱門文章

最新文章

最新評論文章