如何使用tesseract-ocr4.0識別圖片文字

首先下載tesseract-ocr安裝包,附鏈接:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下載完成後記住安裝位置,後面要配置環境變量。簡要描述配置環境變量,與Java配置環境變量類似,複製安裝路徑

C:\Program Files(x86)\Tesseract-OCR 把這個路徑添加到系統變量Path裏面,鍵入命令:tesseract -v可以查看安裝版本確認是否安裝成功;

此時還不能識別中文,需要下載簡體中文包https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/chi_sim.traineddata

把下載的語言包放到安裝路徑tessdata目錄下

再次配置環境變量 新建系統變量TESSDATA_PREFIX 變量值仍爲安裝路徑C:\Program Files (x86)\Tesseract-OCR 

二:識別圖片

選擇一張圖片並建立一個txt文件用於存放識別結果 

進入到存放圖片的目錄

在命令行界面鍵入命令 

格式: tesseract 圖片名稱 生成的結果文件的名稱  字庫 

例如:tesseract test.jpg result -l chi_sim

打開result.txt即可查看識別結果

發佈了80 篇原創文章 · 獲贊 104 · 訪問量 31萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章