字符识别OCR(optical character recognition)经典框架解析

字符识别通常包含2个阶段:
1.字符检测(detection)
2.字符识别(recognition)
一.检测
检测常用的框架包括:R-CNN ,fast R-CNN,faster R-CNN,YOLO,SDD等框架。但是由于字符检测与通用的字符检测有一定的差别,字符有其特殊的特征:
1.文字目标的特殊性,一个很大的先验是,文字总是水平排列的。
2.文字的特征总感觉体现在edge上。
3.自然场景文字检测的难点在于:小目标,遮挡,仿射畸变。本文使用VGG16,只使用conv5,可能对小文字的检测效果不好。
因此,在字符检测是有一些专用的框架,如:CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network)
本文工作基于faster RCNN , 区别在于
1.改进了rpn,anchor产生的window的宽度固定为3;
2.rpn后面不是直接接全连接+分类/回归,而是再通过一个LSTM,再接全连接层;
3.座标仅仅回归一个y,而不是x1, y1, x2, y2;
4.添加 side-refinement offsets(可能这个就是4个回归值中的其中2个);
二.识别
字符识别的常用框架是CNN+LSTM+CTC

(未完待续)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章