圖像處理基礎知識
OCR
文字識別也是CV主要研究方向之一,文字識別方向主要:
1.單獨文字識別
2.結合文字進行檢測
3. 文字端到端識別
文字識別技術: 通過文字檢測定位文字在圖像區域,在提取區域上特徵,在此基礎上做專門的字符識別,出現許多端到端ENd2End OCR
- 文字檢測— 定位圖片中文本區域(定位的精度直接影響後續的Recongnition)
文字檢測 中 概念:- ground truth(GT): 在有監督學習中 數據是標記(X,t)
x 是輸入數據,正確的t 的標註是 ground truth
在圖像識別中: 輸入圖像的alpha圖,原始圖使用Alpha大哥標籤就是GT (Aplha 通道表示一個圖片透明和不透明程度) - detecting box: 窗口移動的 box
- IOU: 圖像分割問題標準性能度量,預測區域與實況區域之間的相似性
- 文字檢測算法:
- EAST/CTPN/SegLink/PixelLink/TextBoxes/TextBoxes++/TextSnake/MSR/…
- ground truth(GT): 在有監督學習中 數據是標記(X,t)
- 文字識別:
對於不彎曲的文本識別
* CNN + RNN + CTC
* CNN + seq2deq+Attention
* CNN + LSTM + CTC 驗證碼識別
對於彎曲文本識別:
按照傳統方式 出現大量無效的區域,STN 網絡學習變換參數
使用Deformable Convolution 可變形卷積 可以提取文字區域的不同形狀特徵
參考文章: https://zhuanlan.zhihu.com/p/657075435