python爬蟲學習筆記 3.5 (機器視覺與Tesseract介紹)

python爬蟲學習筆記 3.5 (機器視覺與Tesseract介紹)

機器視覺

從 Google 的無人駕駛汽車到可以識別假鈔的自動售賣機,機器視覺一直都是一個應用廣 泛且具有深遠的影響和雄偉的願景的領域。

我們將重點介紹機器視覺的一個分支:文字識別,介紹如何用一些 Python庫來識別和使用在線圖片中的文字。

我們可以很輕鬆的閱讀圖片裏的文字,但是機器閱讀這些圖片就會非常困難,利用這種人類用戶可以正常讀取但是大多數機器人都沒法讀取的圖片,驗證碼 (CAPTCHA)就出現了。驗證碼讀取的難易程度也大不相同,有些驗證碼比其他的更加難讀。

將圖像翻譯成文字一般被稱爲光學文字識別(Optical Character Recognition, OCR)。可以實現OCR的底層庫並不多,目前很多庫都是使用共同的幾個底層 OCR 庫,或者是在上面 進行定製。

ORC庫概述

在讀取和處理圖像、圖像相關的機器學習以及創建圖像等任務中,Python 一直都是非常出色的語言。雖然有很多庫可以進行圖像處理,但在這裏我們只重點介紹:Tesseract

Tesseract

Tesseract 是一個 OCR 庫,目前由 Google 贊助(Google 也是一家以 OCR 和機器學習技術聞名於世的公司)。Tesseract 是目前公認最優秀、最精確的開源 OCR 系統,除了極高的精確度,Tesseract 也具有很高的靈活性。它可以通過訓練識別出任何字體,也可以識別出任何 Unicode 字符。

安裝Tesseract

Windows 系統

下載可執行安裝文件https://code.google.com/p/tesseract-ocr/downloads/list安裝。

Linux 系統

可以通過 apt-get 安裝: $sudo apt-get tesseract-ocr

Mac OS X系統

用 Homebrew(http://brew.sh/)等第三方庫可以很方便地安裝 brew install tesseract

安裝pytesseract

Tesseract 是一個 Python 的命令行工具,不是通過 import 語句導入的庫。安裝之後,要用 tesseract 命令在 Python 的外面運行,但我們可以通過 pip 安裝支持Python 版本的 Tesseract庫:

pip install pytesseract

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章