pytesseract圖片數字識別

原創

Heisenberg-William

2019-10-25 17:43

import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
from PIL import Image
import pytesseract
im=Image.open('new_num.jpg')
gray=im.convert('L')
gray.show()
gray.save('new_num_gray.jpg')
threshold=150
table=[]
for i in range(256):
	if i <threshold:
		table.append(0)
	else:
		table.append(1)
out=gray.point(table,'1')
out.show()
out.save('new_num_thresholded.jpg')
th=Image.open('new_num_thresholded.jpg')
print(pytesseract.image_to_string(th))

看處理前後的3張圖

但是識別的結果不是很準確。只識別出了‘2’。

然後又試了所有的參數，準確率就好了一丟丟。

import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
from PIL import Image
import pytesseract
im=Image.open('new_num.jpg')
gray=im.convert('L')
gray.show()
gray.save('new_num_gray.jpg')
threshold=150
table=[]
for i in range(256):
	if i <threshold:
		table.append(0)
	else:
		table.append(1)
out=gray.point(table,'1')
out.show()
out.save('new_num_thresholded.jpg')
th=Image.open('new_num_thresholded.jpg')
for i in range(3,14):
	str1='--psm '+str(i)+'--oem 3 -c tessedit_char_whitelist=0123456789'
	print(pytesseract.image_to_string(th,config=str1))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Requests庫基礎入門

1.Requests庫入門中文文檔：https://requests.readthedocs.io/zh_CN/latest/ gittub地址：https://github.com/requests/requests 更多信息

2020-07-06 08:31:07

爬蟲學習：scrapy相關的知識

Scrapy 是開源的爬蟲框架，快速強大，只需要寫少量的代碼即可完成爬取任務，容易擴展，添加新的功能模塊 1. scrapy 在Mac上的安裝可以使用pip安裝Scrapy 運行命令 sudo pip ins

2020-07-03 11:57:40

Python爬蟲學習之selenium+ChromeDriver實現爬蟲

selenium+ChromeDriver實現爬蟲參考：https://blog.csdn.net/u010986776/article/details/79266448 selenium所做的事情，恰恰是驅動真正的瀏覽器去執行

2020-07-02 00:25:55

Python爬蟲學習之API與模擬ajax請求

API的使用 ——通過API向服務器請求數據優點：簡單直接，高效率地批量爬取；解決動態網頁的爬取。缺點：通過API的缺點是有些網站會限制API調用的次數和頻率，用戶需要付費來升級成高級用戶來獲取更靈活的API調用。 HTTP協

2020-07-02 00:25:54

Python爬蟲學習之下載源文件與數據存儲

下載源文件與數據存儲下載源文件 urlretrieve 多用於非結構化的數據（圖片等），以下載http://www.pythonscraping.com 上的logo.jpg爲例： '''urlretrieve''' from

2020-07-02 00:25:54

Python爬蟲庫學習筆記-requests

安裝（1）利用pip安裝，命令行直接輸入pip install requests （2）利用easy_install安裝，命令行直接輸入easy_install requests 基本請求（1）requests庫提供h

2020-06-29 04:02:16

Python爬蟲實踐筆記（三）

網頁式登錄的無線網絡重連–本質註釋：事實上這個程序就是在連接了某個無線網之後，登錄該無線網指定的頁面，然後就可以正常上網了。跟爬蟲的連接和登錄網頁的本質是一樣的，只是需要分析一下請求和響應數據，以至於能夠實現重連。第一步：分

2020-06-29 04:02:16

Python爬蟲實踐筆記（二）

無登錄百度貼吧的帖子基本步驟： ①分析url ②獲取頁面 ③提取信息 ④文本處理 ⑤寫入文件備註：基本框架跟筆記（一）很相似，只是多了很多細節需要處理，所以這裏着重描述細節的處理。第一步：分析url （1）像段子、貼吧

2020-06-29 04:02:16

Python爬蟲學習筆記--MySQLdb模塊

mysql數據庫和MySQLdb模塊相關問題下載與安裝（1）首先，python要使用數據庫不是僅僅安裝相應的模塊就行的，安裝的模塊，例如這裏的MySQLdb模塊只是一個訪問mysql數據庫的接口。所以還是必須要下載一個數據庫的

2020-06-29 04:02:06

爬蟲實戰——xpath爬取電影天堂

from lxml import etree import requests HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Apple

SLEEPYHEAD's Blog

2020-06-28 05:25:00

爬蟲實戰——古詩文網古詩爬取

import re import requests # url = 'https://www.gushiwen.org/default_1.aspx' def parse_page(url): headers = {

SLEEPYHEAD's Blog

2020-06-28 05:25:00

查看網頁編碼方式的通用方法

在python爬蟲等各種情景模式下，往往需要查看網頁的編碼方式。下面是通用，簡單的方法。在各種瀏覽器打開的任意頁面上使用F12功能鍵，即可使用開發者工具，在窗口console標籤下，鍵入 "document.charset" 即可查看網

张少锋的博客

2020-06-17 08:30:54

2019最牛Python書單，學習Python的小夥伴看這裏！

Python 是軍刀型的開源工具，被廣泛應用於Web 開發、爬蟲、數據清洗、自然語言處理、機器學習和人工智能等方面，而且Python 的語法簡潔易讀，這讓許多編程入門者不再望而卻步，因此Python 在最近幾年非常受歡迎，各行各業的技術

2020-06-15 00:57:09

Python 爬蟲十六式 - 第七式：RE：用匹配來演繹編程的藝術

RE：用匹配來演繹編程的藝術學習一時爽，一直學習一直爽 Hello，大家好，我是 Connor，一個從無到有的技術小白。上一次我們說到了 pyquery 今天我們將迎來我們數據匹配部分的最後一位重量級人物，也是編程語言中

2020-06-10 10:42:02

Python 爬蟲十六式 - 第一式：HTTP協議

HTTP：偉大而又無聞的協議學習一時爽，一直學習一直爽！ Hello，大家好啊，我是Connor，一個從無到有的技術小白。有的人一說什麼是HTTP協議就犯愁，寫東西的時候也沒想過什麼是HTTP協議，只是知道HTTP協議

2020-06-10 10:42:02

24小時熱門文章

最新文章

最新評論文章