批量識別圖中文字自動命名，讓你1秒找到騷圖

原創

2020-04-27 15:13

自從上次批量的保存了半佛老師的各種騷圖之後：我用Python一鍵保存了半佛老師所有的騷氣表情包，每次做視頻，找圖就相當的費勁，因爲圖片太多，每次想要找到固定的圖的話。就像大海撈針一樣。因爲上個版本的代碼保存圖片是截取部分圖片鏈接進行命名的，所以名稱是隨機的。

所以今天我準備對這些圖片重新命名。按照表情包中的文字來命名。所以我得找到能夠識別圖片中文字的方法。基礎的方法的話，那就需要安裝圖像處理相關的庫，像 pillow、pytesser3、Tesseract-OCR 等等庫。用這些庫識別圖片中的文字的成功率不是很高，所有我準備調用一下第三方的一些庫。我看了一下百度有個文字識別的API接口。我們需要在下面地址註冊應用。

https://ai.baidu.com/tech/ocr

我們在文字識別裏面去創建一個應用，選擇圖片文字識別。

通用文字識別接口一天有5萬次免費調用次數，對我們保存的幾千多張的圖片來說，綽綽有餘了。

創建成功之後返回應用列表，我們可以看到剛剛創建的應用，有三個重要的參數，我們等下會用到 AppID、API Key、Secret Key。

我們就可以調用百度的這個識別圖片文字的API接口庫。我們首先需要安裝這個baidu-aip庫。

pip install baidu-aip

使用這個文字識別接口挑了幾張圖測試下效果：

總結下：

1、gif圖片不識別，只能識別靜態圖，jpg、png、jpeg等。 2、識別成功率並不是100%，比如「人」會被識別成「入」。

3、圖片中文字有換行的，都會分開以字典形式保存在 words_result 列表中。

我對有多行的文字全部加起來，組成一行文字。

圖片中有時會存在無法保存爲名稱的符號。

我用 replace 方法對它進行替換去除。

title = t.replace('/', '').replace('\\', '').replace(':', '').replace('*', '').replace('?', '').replace('<', '')\
            .replace('>', '').replace('|', '').replace('.', '')

gif 動態圖無法識別，我們對它按照時間戳重命名。