1 致謝
感謝Python中提供的difflib的函數庫~
2 前言
我們希望可以打造一個屬於自己的OCR模型~
3 後處理
在經過OCR的識別過程之後,識別出來的文字可能會出現錯誤,所以還需要進行後處理;
3.1 相似度匹配——difflib
我們使用相似度來找出詞表中相似度最高的名字,使用的函數庫是difflib,
3.1.1 使用set_seq1()和set_seq2()進行性能的優化
在difflib的文檔中,他們給出了這樣的優化建議:
SequenceMatcher
計算並緩存有關第二個序列的詳細信息,這樣如果你想要將一個序列與多個序列進行比較,可使用set_seq2()
一次性地設置該常用序列並重復地對每個其他序列各調用一次set_seq1()
。
我們也可以依照這種方法進行優化;