OCR 知識 概括

圖像處理基礎知識

OCR

文字識別也是CV主要研究方向之一,文字識別方向主要:
1.單獨文字識別
2.結合文字進行檢測
3. 文字端到端識別
文字識別技術: 通過文字檢測定位文字在圖像區域,在提取區域上特徵,在此基礎上做專門的字符識別,出現許多端到端ENd2End OCR

  1. 文字檢測— 定位圖片中文本區域(定位的精度直接影響後續的Recongnition)
    文字檢測 中 概念:
    1. ground truth(GT): 在有監督學習中 數據是標記(X,t) x 是輸入數據,正確的t 的標註是 ground truth
      在圖像識別中: 輸入圖像的alpha圖,原始圖使用Alpha大哥標籤就是GT (Aplha 通道表示一個圖片透明和不透明程度)
    2. detecting box: 窗口移動的 box
    3. IOU: 圖像分割問題標準性能度量,預測區域與實況區域之間的相似性
    4. 文字檢測算法:
    5. EAST/CTPN/SegLink/PixelLink/TextBoxes/TextBoxes++/TextSnake/MSR/…
  2. 文字識別:
    對於不彎曲的文本識別
    * CNN + RNN + CTC
    * CNN + seq2deq+Attention
    * CNN + LSTM + CTC 驗證碼識別
    對於彎曲文本識別:
    按照傳統方式 出現大量無效的區域,STN 網絡學習變換參數
    使用Deformable Convolution 可變形卷積 可以提取文字區域的不同形狀特徵

參考文章: https://zhuanlan.zhihu.com/p/657075435

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章