pytesser,圖片文本識別工具

環境搭建:

    Linux下安裝python就不說了,這裏主要說如何安裝pytesser,PIL和Tesseract

    1.檢查系統是否已經安裝以下庫:

            libpng   , libjpeg ,libtiff,zlib-dev

            #yum list | grep libpng

            #yum list | grep libjpeg

            #yum list | grep libtiff

            #yum list | grep zlib

       沒安裝上就安裝:

           #yum install libpng

           #yum install libjpeg

           #yum install libtiff

           #yum install zlib

 

     2.安裝Tesseract:

          下載最新版Tesseract,下載地址https://github.com/tesseract-ocr/tesseract/archive/master.zip 我下載的是3.0版本。

          解壓壓縮包:

          #tar -zxvf tesseract-3.00.tar.gz

          進入解壓後的文件夾:

          #cd tesseract-3.00

         安裝: 

          #./configure --prefix=/opt/tesseract  #使用--prefix 來指定安裝的目錄,我這裏的安裝目錄是/opt/tesseract

          #make

          #make install

        安裝完成後要配置PATH,將tesseract的運行腳本加到環境變量中

                export PATH=$PATH:/opt/tesseract/bin

(這樣導入環境變量在註銷當前登錄後就失效了。要想永久生效,需要把這行命令添加到環境變量的文件裏。有兩個文件可 選:“/etc/profile”和用戶主目錄下的“.bash_profile”,“/etc/profile”對系統裏所有用戶都有效,用戶主目錄下 的“.bash_profile”只對這個用戶有效。注:後兩種方式需要註銷系統重新登陸後才生效

        http://zh.osdn.jp/projects/sfnet_tesseract-ocr-alt/downloads/eng.traineddata.gz去下載最新的eng.traineddata.gz文件,把解壓後的eng.traineddata放到Tesseract的安裝目錄下(我剛纔安裝到了/opt/tesseract,所以就把eng.traineddata放到/opt/tesseract/share/tessdata/目錄下),注意,雖然tesseract的svn trunk裏也有這個文件,但那個不能用,會報以下error

1
actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed:in file tessdatamanager.cpp, line 55

錯誤,詳見:http://www.uluga.ubuntuforums.org/showthread.php?p=10248384

試一試是否安裝成功:

[root@mobdev87 ~#] tesseract
Usage:tesseract imagename outputbase [-l lang] [configfile [[+|-]varfile]...]
說明安裝成功了。

  3.安裝PIL:

      到PIL首頁下載適合你的python版本的PIL:http://www.pythonware.com/products/pil/

        我python是2.7版本的,下載地址是:http://effbot.org/downloads/Imaging-1.1.7.tar.gz

        解壓壓縮包:

        #tar -zxvf Imaging-1.1.7.tar.gz

        進入解壓後的文件夾:

        #cd Imaging-1.1.7

       安裝:

       #python setup.py install

      

 4.安裝pytesser:

     下載pytesser:http://pytesser.googlecode.com/files/pytesser_v0.0.1.zip 目前只有一個版本。

     解壓壓縮包:

     #unzip pytesser_v0.0.1.zip

     建議創建一個文件夾,把壓縮包放到文件夾裏在解壓,因爲直接使用unzip來解壓會把壓縮包裏的東西解壓到當前目錄,不易管理。

安裝後,pytesser目錄下有個“phototest.tif”圖片文件作爲測試用,直接在目錄下寫一個python腳本進行測試:

建立一個img_to_text.py文件,代碼如下:
1
2
3
4
from pytesser import *
im = Image.open('phototest.tif')
text = image_to_string(im)
print text

運行:

1
[root@mobdev87 ~#] python img_to_text.py 2>/dev/null
結果爲:
Tesseract Open Source OCR Engine with LibTiff
12 pt
Anai Amazmgw few dmcotheques provide lukeboxes
courier: Amazingly few dlsconheques provide jukeboxes
mme; Amazmgxy few d,m¢hEquES pm/,de ,meboxes
24 pt:
Arial: Amazingly few discotheques
provide jukeboxes.
Courier : Amazingly few
digcothequee provide
jukeboxee .
Times: _A111ZlZi11gl§' few discotheques provide
jukeboxes.

文章參考:
Job Done!
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章