OCR識別圖片的一些實例

 

之前一直想做一個人臉識別的項目,結果最後被調離那個項目組,最後不了了之。最近在家休息,一哥們就讓幫忙採集一些數據,因爲有效的數據被圖片化了,就需要一些簡單的數字識別,然後決定用tesseract-ocr來實現。

tesseract-ocr是一 個OCR引擎,在1985年到1995年由HP實驗室開發,現在在Google。tesseract-ocr 3.0發佈,支持中文。開源協議Apache License 2.0,在商業項目中還是可以值得一用的。

C#項目地址

OK.廢話少說。代碼貼上了。簡單的測試了下,生產環境下自己封裝下。OCR這些對資源的消耗特別嚴重,並且在現實情況下圖片有噪點扭曲,失敗的概率有點大,所以窮舉的時候要注意對象代的管理。不過京東沒有扭曲什麼的,識別就簡單多了。

 運行的結果:

 

 

需要玩下的點這裏下載項目吧。


OCR小貼士:


什麼是OCR,點擊這裏查看。點擊

還存在那些OCR引擎?

答:

主要幾個OCR還有Asprise-OCR,不過個人感覺這個識別不大準確,錯誤率太高。所以放棄了。

微軟也有OCR,不過下次再介紹基於微軟的Document組件的中文識別吧。tesseract-ocr實際上也是支持中文的。可以自己去看下了解下。

 

來源:http://www.cnblogs.com/imfunny/archive/2011/11/15/2250032.html

發佈了7 篇原創文章 · 獲贊 4 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章