OCR 知識概括

原創

2020-06-25 08:36

圖像處理基礎知識

OCR

OCR

文字識別也是CV主要研究方向之一，文字識別方向主要：
1.單獨文字識別
2.結合文字進行檢測
3. 文字端到端識別
文字識別技術：通過文字檢測定位文字在圖像區域，在提取區域上特徵，在此基礎上做專門的字符識別，出現許多端到端ENd2End OCR

文字檢測— 定位圖片中文本區域（定位的精度直接影響後續的Recongnition）
文字檢測中概念：
1. ground truth(GT): 在有監督學習中數據是標記（X,t） x 是輸入數據，正確的t 的標註是 ground truth
  在圖像識別中：輸入圖像的alpha圖，原始圖使用Alpha大哥標籤就是GT (Aplha 通道表示一個圖片透明和不透明程度)
2. detecting box: 窗口移動的 box
3. IOU: 圖像分割問題標準性能度量，預測區域與實況區域之間的相似性
4. 文字檢測算法：
5. EAST/CTPN/SegLink/PixelLink/TextBoxes/TextBoxes++/TextSnake/MSR/…
文字識別：
對於不彎曲的文本識別
* CNN + RNN + CTC
* CNN + seq2deq+Attention
* CNN + LSTM + CTC 驗證碼識別
對於彎曲文本識別：
按照傳統方式出現大量無效的區域，STN 網絡學習變換參數
使用Deformable Convolution 可變形卷積可以提取文字區域的不同形狀特徵

參考文章： https://zhuanlan.zhihu.com/p/657075435

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章