圖片文字識別各種方法比較

原創

2020-06-13 04:05

網上有很多種圖片文字識別方法，我這選了幾種，做下比較

代碼在這：

import tesserocr
from PIL import Image
import pytesseract

def a():
    #這是一種辦法,使用tesserocr
    image=Image.open('xxx.jpg')
    result=tesserocr.image_to_text(image)
    print('使用tesserocr:',result)
    print('*'*50)

def b():
    # tesserocr更簡便的方法
    print('使用tesserocr簡便方法:',tesserocr.file_to_text('xxx.jpg'))
    print('*'*50)

def c():
    # 這是另一種辦法,pytesseract
    image=Image.open('xxx.jpg')
    # result = pytesseract.image_to_string(image ,lang='chi_sim')
    result = pytesseract.image_to_string(image)
    print('使用pytesseract:',result)
    print('*' * 50)

a()
b()
c()

首先，漢字的識別，網上最多的是用pytesseract來識別

def c():
    # 這是另一種辦法,pytesseract
    image=Image.open('xxx.jpg')
    result = pytesseract.image_to_string(image ,lang='chi_sim')
    print(result)
    print('*' * 50)
c()

第一次，我們選擇的是黑白比較分明的圖片

識別效果：

總結：總體來說還行

第二次，使用黑白不那麼分明的圖片：

識別效果：

總結，似乎跟第一次差不太多

第三次，用黑白分明更弱些的圖片：

識別效果：

總結：可以說是一塌糊塗了

然後，咱們試下識別英文，三種方法都可以，正好做下比較
第一次，使用顏色比較重的圖片：

識別效果：

總結：可以看到，全對，由此可見，這些方法對英文的支持真不錯

第二次，用顏色稍淡些的圖片：

識別效果：

總結：tesserocr的簡便寫法出了點問題，其他兩個還是全對

第三次，我們用一個帶顏色的圖片試試：

識別效果：

總結：顯而易見，沒問題

實驗效果僅供參考，另外實驗中發現數字的識別率和英文差不多，所以也就沒寫上來。其次，有干擾線或字母扭曲的識別率很差

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

使用Beautifulsoup解析網頁遇到的問題

今天遇到一個網頁，按往常的老辦法 soup = BeautifulSoup(content, 'lxml') 打印soup發現少了很多數據，剛開始還以爲反爬，後來經過驗證不是。、那麼就是解析問題，我換成了 soup = Bea

2020-07-07 18:21:30

Android5.0 DatePicker 和 TimePicker 恢復至低版本滾動選擇模式

現在做的項目是運行在甲方採購的特定設備上的，5.0系統。在調用系統的日期和時間選擇控件時，發現全部是 Material Design 風格。怕給客戶演示時說使用不習慣，故穩妥起見，改爲 4.x 版本的 spinner 滾動選擇模

2020-06-27 08:42:32

【筆試】龍圖遊戲服務器開發筆試記錄

1 程序輸出結果爲（） #define add(a,b) a+b int main(){ printf("%d/n", 5*add(3,4)); return 0; } A 23 B 35 C 16 D 19 printf("%

爱放火的安小妮

2020-06-22 12:01:22

Mybatis批量操作sql寫法

Mybatis批量操作sql寫法批量Insert，參數爲List批量Insert，參數爲List<Object> mysql的批量新增sql的寫法示例，先看一下mapper的寫法； void batchSaveUser(L

2020-06-20 04:01:40

ubuntu18 安裝Qt5.13問題記錄 ---QT5:unable to create the directory&&Error while building/deploying project

1、ubuntu安裝完Qt5.13後，新建工程時遇到錯誤unable to create the directory 問題描述：在根目錄下新建工程出現unable to create the directory，但是在家目錄下卻能成功創建

小雷家家-LeiJin

2020-06-19 05:18:33

使用anaconda新建各種python版本虛擬運行環境（附pycharm設置運行環境）筆記

下載地址：https://www.anaconda.com/download/ 安裝包下載下來之後，點擊安裝，自己定義選擇安裝到哪裏，之後一路next到這裏，就按他默認的這樣不動。因爲第一個是加環境變量，選擇的話後面會有不少麻煩，

2020-06-13 04:05:22

python打開xml文件並轉爲Beautiful格式

from xml.dom.minidom import parse import xml.dom.minidom #打開xml文檔 dom = xml.dom.minidom.parse('newmy.xml') #轉爲字符串 c

2020-06-13 04:05:22

python兩列表對應元素求和

一種方法是循環，但是有簡便方法，用numpy import numpy as np list1=[1,2,3,4] list2=[1,2,3,4] a_array = np.array(list1) b_array = np.a

2020-06-13 04:05:22

求列表內元素總和

total = 0 list1 = [2, 3, 5] for x in range(0, len(list1)): total = total + list1[x] print( total)

2020-06-13 04:05:22

批量取文件

file_dir='G:/2017年更新2018年樓盤/' for root, dirs, files in os.walk(file_dir): # print(root) # 當前目錄路徑 # pri

2020-06-13 04:05:22

python使用replace做多字符替換

如果需要替換的字符比較少，我們可以直接寫出來，但是多的話，就要用for循環了，先看需要替換的字符比較少的時候，很簡單代碼1： text='我愛我家' #'我'替換爲'他'，'家'替換爲'空' data=text.replace(

2020-06-13 04:05:22

獲取多進程函數返回值

from multiprocessing import Process from multiprocessing import Manager def a(x): b=1+2 x[b]=b if __name__=

2020-06-13 04:05:12

PotPlayer不支持S/W HEVC(H.265)解碼的解決方法

PotPlayer播放MKV格式的視頻時跳出視窗顯示：不支持S/W HEVC(H.265)解碼，按下尋找編解碼器，請安裝相應的解碼器。解決方法： 1、開啓瀏覽器，打開「https://dll.website/ffmpeg64-dll」這

驭风者yuzhansheng

2020-06-10 19:03:14

解決如source insight等軟件由於編碼格式不一樣出現中文亂碼顯示問題

初期做項目時，代碼量還比較少，只用了notepad++這樣的文本工具編輯，但是後期代碼量越來越大，考慮到開發效率，所以換成source insight來查閱代碼和編輯。建立source insight工程後，由於編碼格式不一樣，出現了中文

小雷家家-LeiJin

2020-06-09 15:09:32

Android自定義衛星菜單

2020-05-31 02:02:30

24小時熱門文章

最新文章

最新評論文章