OCR的學習筆記

1 致謝

感謝Python中提供的difflib的函數庫~

2 前言

我們希望可以打造一個屬於自己的OCR模型~

3 後處理

在經過OCR的識別過程之後,識別出來的文字可能會出現錯誤,所以還需要進行後處理;

3.1 相似度匹配——difflib

我們使用相似度來找出詞表中相似度最高的名字,使用的函數庫是difflib,

3.1.1 使用set_seq1()和set_seq2()進行性能的優化

difflib的文檔中,他們給出了這樣的優化建議:

SequenceMatcher 計算並緩存有關第二個序列的詳細信息,這樣如果你想要將一個序列與多個序列進行比較,可使用 set_seq2() 一次性地設置該常用序列並重復地對每個其他序列各調用一次 set_seq1()

我們也可以依照這種方法進行優化;

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章