python之圖片文本識別

這裏需要用到python的幾個庫,分別是pytesser,以及pytesser的依賴庫PIL。python的版本建議用2.7或者2.7一下的都行,不建議用python3以上的,因爲python3不向下兼容,所以有很多python2的東西它不支持

pytesser下載的話,我直接在pycharm裏面下全是失敗,用DOS的命令行下也是失敗,所以還是自己直接去google下吧
地址:http://code.google.com/p/pytesser/downloads/list
如果打不開上面的網址的話可以從我的資源裏面下載,地址:http://download.csdn.net/detail/ztzy520/9725891
下載好了之後安裝,步驟:

1.  解壓pytesser ,將解壓後的文件複製到Python安裝目錄的Lib\site-packages下,直接使用,比如我的安裝目錄是:               C:\Python27\Lib\site-packages。 
2.  把2個目錄添加到環境變量之中。 
C:\Python27\Lib\site-packages 
C:\Python27\Lib\site-packages\pytesser-v0.0.1 
3.  還要在C:\Python27\Lib\site-packages下面添加.pth 文件(pytesser-v0.0.1.pth),這個文件裏面,寫上:“pytesser-v0.0.1”字符串。

接下來就是下載PIL了。這個我在pycharm裏面也是下載失敗,提示沒有找到適合python版本的PIL。
可以在DOS命令行下用命令下:pip install Pillow 這裏要注意的是如果要直接在DOS下用pip命令的話要先把pip的路徑加到環境變量path裏面去,例如我的pip路徑:“D:\python2.7.13\Scripts\”

全部下載完之後就可以開始拿圖片測試了。這裏我們先拿上面下載的pytesser壓縮包裏面給的測試圖片來測試
代碼如下:

from pytesser import *

img=Image.open("D:\\fnord.tif")  
#我這裏是直接把圖片複製在d盤下。可以隨意更改。如果是d盤下的XX文件夾,路徑就是:d:\XX\\fnord.tif
一些對python不熟悉的小夥伴要注意的是這個路徑只有最後一個斜槓要改成雙斜槓,前面的都是單斜槓,如果不是這樣的話在pycharm裏面就會報一些看不懂的錯誤,百度到死都不知道怎麼解決。

print image_to_string(img)

或者可以寫成:

print image_file_to_string("D:\\fnord.tif")

這裏需要注意一下,直接運行上面的代碼的話可能會報一個找不到Image類的錯誤,具體我也不是很清楚,可能是因爲pytesser只支持PIL的Image類吧,所以我們還要改一個東西。就是將上面你下載好並且解壓放到指定位置的pytesser包裏面有一個pytesser.py 的第一行:import Image改成from PIL import Image。如圖:

更改之後

這時候就可以看到輸出結果:
輸出結果

大功告成。

最後說一下這個方法的一些缺點,就是識別率不高,要圖片裏面的文字很清晰纔可以識別出來,要想提高識別率的話還要對圖片進行一些操作,這裏就不詳細說啦,請大家自行百度。

嘔心瀝血寫出來的,轉載請一定註明出處。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章