一:簡介
OCR(Optical Character Recognition):光學字符識別,是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然後用字符識別方法將形狀翻譯成計算機文字的過程。
Tesseract:開源的OCR識別引擎,初期Tesseract引擎由HP實驗室研發,後來貢獻給了開源軟件業,後由Google進行改進、修改bug、優化,重新發布。
二:語言字庫
書接上回,咱們先放字庫地址:
1、Windows版本Tesseract各版本下載 ,https://github.com/tesseract-ocr/tesseract/wiki/Data-Files
2、懶得思考的人吶,直接來這裏下載:https://tesseract-ocr.github.io/tessdoc/Data-Files
3、再放一個地址GIthub,直接來這裏下載:https://github.com/tesseract-ocr/tessdata再訪問不了,那我也沒辦法了
鏈接:https://pan.baidu.com/s/1zolP6jiQFP1pABT8z9zh5Q
提取碼:cxjt
各版本對應字庫要識別簡體中文需要下載chi_sim.traindata字庫(【注意】根據版本下載對應字庫)。
下載簡體中文後放入你的字體庫:
我的是:C:\Program Files\Tesseract-OCR\tessdata
三:拿個圖片來比劃比劃
執行命令如下:tesseract books.jpg result -l chi_sim
解釋器:
-l chi_sim 表示用簡體中文字庫(需要下載中文字庫文件,解壓後,存放到tessdata目錄下去,字庫文件擴展名爲 .raineddata 簡體中文字庫文件名爲: chi_sim.traineddata)
1、執行過程:
2、執行結果:
隨機拍攝的照片,識別效果不怎麼樣。標準化的圖片應該會很好
四:遇到的問題處理
語言庫裏面的簡體中文有問題,解決辦法就是
用命令:【tesseract --list-langs】來查看Tesseract-OCR支持語言,如果沒有則自行添加對應庫。
看到確實是簡體中文的語言不存在,所以不能支持了。
正確情況如下: