python網絡數據採集-處理格式規範的文字

      你要處理的大多數文字都是比較乾淨的、格式規範的。格式規範的文字通常可以滿足一些需求,不過究竟什麼是“格式混亂”,什麼算“格式規範”,確實因人而異。

      通常,格式規範的文字具有以下特點:

  • 使用一個標準字體(不包含手寫體、草書,或者十分“花哨的”字體)
  • 雖然被複印或拍照,字體還是很清晰,沒有多餘的痕跡或污點
  • 排列整齊,沒有歪歪斜斜的字
  • 沒有超出圖片範圍,也沒有殘缺不全,或緊緊貼在圖片的邊緣
     文字的一些格式問題在圖片預處理時可以進行解決。例如,可以把圖片轉換成灰度圖,調整亮度和對比度,還可以更具需要進行裁剪和旋轉。但是,這些做法在進行更具擴展性的訓練時會遇到一些限制。

    下圖是一張帶有英文文字的圖片


     運行下面的命令來調用Tesseract,讀取文件並把結果寫到一個文本文件中:

$tesseract text.tiff textoutput | cat textoutput.txt


發佈了105 篇原創文章 · 獲贊 238 · 訪問量 16萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章