環境搭建:
Linux下安裝python就不說了,這裏主要說如何安裝pytesser,PIL和Tesseract
1.檢查系統是否已經安裝以下庫:
libpng , libjpeg ,libtiff,zlib-dev
#yum list | grep libpng
#yum list | grep libjpeg
#yum list | grep libtiff
#yum list | grep zlib
沒安裝上就安裝:
#yum install libpng
#yum install libjpeg
#yum install libtiff
#yum install zlib
2.安裝Tesseract:
下載最新版Tesseract,下載地址https://github.com/tesseract-ocr/tesseract/archive/master.zip 我下載的是3.0版本。
解壓壓縮包:
#tar -zxvf tesseract-3.00.tar.gz
進入解壓後的文件夾:
#cd tesseract-3.00
安裝:
#./configure --prefix=/opt/tesseract #使用--prefix 來指定安裝的目錄,我這裏的安裝目錄是/opt/tesseract
#make
#make install
安裝完成後要配置PATH,將tesseract的運行腳本加到環境變量中
export
PATH=$PATH:
/opt/tesseract/bin
(這樣導入環境變量在註銷當前登錄後就失效了。要想永久生效,需要把這行命令添加到環境變量的文件裏。有兩個文件可
選:“/etc/profile”和用戶主目錄下的“.bash_profile”,“/etc/profile”對系統裏所有用戶都有效,用戶主目錄下 的“.bash_profile”只對這個用戶有效。注:後兩種方式需要註銷系統重新登陸後才生效)
到http://zh.osdn.jp/projects/sfnet_tesseract-ocr-alt/downloads/eng.traineddata.gz去下載最新的eng.traineddata.gz文件,把解壓後的eng.traineddata放到Tesseract的安裝目錄下(我剛纔安裝到了/opt/tesseract,所以就把eng.traineddata放到/opt/tesseract/share/tessdata/目錄下),注意,雖然tesseract的svn trunk裏也有這個文件,但那個不能用,會報以下error
1
|
actual_tessdata_num_entries_
<= TESSDATA_NUM_ENTRIES:Error:Assert failed: in file tessdatamanager.cpp,
line 55 |
錯誤,詳見:http://www.uluga.ubuntuforums.org/showthread.php?p=10248384
試一試是否安裝成功:
3.安裝PIL:
到PIL首頁下載適合你的python版本的PIL:http://www.pythonware.com/products/pil/
我python是2.7版本的,下載地址是:http://effbot.org/downloads/Imaging-1.1.7.tar.gz
解壓壓縮包:
#tar -zxvf Imaging-1.1.7.tar.gz
進入解壓後的文件夾:
#cd Imaging-1.1.7
安裝:
#python setup.py install
4.安裝pytesser:
下載pytesser:http://pytesser.googlecode.com/files/pytesser_v0.0.1.zip 目前只有一個版本。
解壓壓縮包:
#unzip pytesser_v0.0.1.zip
建議創建一個文件夾,把壓縮包放到文件夾裏在解壓,因爲直接使用unzip來解壓會把壓縮包裏的東西解壓到當前目錄,不易管理。
安裝後,pytesser目錄下有個“phototest.tif”圖片文件作爲測試用,直接在目錄下寫一個python腳本進行測試:
1
2
3
4
|
from pytesser import * im = Image. open ( 'phototest.tif' ) text = image_to_string(im) print text |
運行:
1
|
[root@mobdev87 ~#] python img_to_text.py 2> /dev/null |