字符識別OCR(optical character recognition)經典框架解析

字符識別通常包含2個階段:
1.字符檢測(detection)
2.字符識別(recognition)
一.檢測
檢測常用的框架包括:R-CNN ,fast R-CNN,faster R-CNN,YOLO,SDD等框架。但是由於字符檢測與通用的字符檢測有一定的差別,字符有其特殊的特徵:
1.文字目標的特殊性,一個很大的先驗是,文字總是水平排列的。
2.文字的特徵總感覺體現在edge上。
3.自然場景文字檢測的難點在於:小目標,遮擋,仿射畸變。本文使用VGG16,只使用conv5,可能對小文字的檢測效果不好。
因此,在字符檢測是有一些專用的框架,如:CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network)
本文工作基於faster RCNN , 區別在於
1.改進了rpn,anchor產生的window的寬度固定爲3;
2.rpn後面不是直接接全連接+分類/迴歸,而是再通過一個LSTM,再接全連接層;
3.座標僅僅迴歸一個y,而不是x1, y1, x2, y2;
4.添加 side-refinement offsets(可能這個就是4個迴歸值中的其中2個);
二.識別
字符識別的常用框架是CNN+LSTM+CTC

(未完待續)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章