你要處理的大多數文字都是比較乾淨的、格式規範的。格式規範的文字通常可以滿足一些需求,不過究竟什麼是“格式混亂”,什麼算“格式規範”,確實因人而異。
通常,格式規範的文字具有以下特點:
- 使用一個標準字體(不包含手寫體、草書,或者十分“花哨的”字體)
- 雖然被複印或拍照,字體還是很清晰,沒有多餘的痕跡或污點
- 排列整齊,沒有歪歪斜斜的字
- 沒有超出圖片範圍,也沒有殘缺不全,或緊緊貼在圖片的邊緣
下圖是一張帶有英文文字的圖片
運行下面的命令來調用Tesseract,讀取文件並把結果寫到一個文本文件中:
$tesseract text.tiff textoutput | cat textoutput.txt