【轉】linux 安裝Tesseract-OCR

轉自:http://www.2cto.com/os/201202/119807.html

linux 安裝Tesseract-OCR

準備工作:

編譯環境: gcc gcc-c++ make(這個環境一般機器都具備,可以忽略)  
1
yum install gcc gcc-c++ make
 依賴的包: autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel leptonica(1.67以上)
 
如果不清楚,可以直接在tessert-ocr下運行
./configure
會提示卻的依賴包 


1. autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel 可以通過yum安裝:
1
yum install autoconf automake libtool
2
yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel
2. leptonica 需要源碼編譯安裝
 參考資料:
 http://paramountideas.com/tesseract-ocr-30-and-leptonica-installation-centos-55-and-opensuse-113
 http://www.leptonica.org/source/README.html
 下載leptonica 包: http://www.leptonica.org/source/leptonica-1.68.tar.gz
 解壓後切換到leptonica-1.68 根目錄  
1
./configure
2
make
3
make install
tesseract安裝:
 依賴安裝完畢後開始安裝tesseract
 下載tesseract-3.01 安裝包: http://tesseract-ocr.googlecode.com/files/tesseract-3.01.tar.gz
 解壓後切換到tesseract-3.01 根目錄
 (如果在make時遇到類似strngs.h:1: error: stray '\357' in program 的錯誤,請將tesseract-3.01/ccutil/strngs.h 文件轉爲ANSI 編碼保存,再重新編譯)  
1
./autogen.sh
2
./configure
3
make
4
make install
5
ldconfig
tesseract英文語言包安裝:  
 下載tesseract-3.01 英文語言包: http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.01.eng.tar.gz

 解壓後將tesseract-ocr/tessdata 下的所有文件全部拷貝到/usr/local/share/tessdata 下

sudo mv tesseract-ocr/tessdata/eng.* /usr/local/share/tessdata/

安裝完畢. 測試一下:
 切換到解壓後的tesseract-3.01 根目錄(這個目錄下有一個自帶的phototest.tif 可以做測試用)
 命令行:
1
tesseract phototest.tif phototest -l eng

 輸出:
1
Tesseract Open Source OCR Engine v3.01 with Leptonica
2
Page 0

 這時應該在當前目錄生成一個phototest.txt 文本文件,內容就是phototest.tif 顯示的文字.

---------------------------------------------

這裏編譯需要點時間 大家就耐心等等


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章