字符识别OCR(optical character recognition)经典框架解析

原創

2018-08-28 00:46

字符识别通常包含2个阶段：
1.字符检测(detection)
2.字符识别(recognition)
一.检测
检测常用的框架包括：R-CNN ,fast R-CNN,faster R-CNN,YOLO,SDD等框架。但是由于字符检测与通用的字符检测有一定的差别，字符有其特殊的特征:
1.文字目标的特殊性，一个很大的先验是，文字总是水平排列的。
2.文字的特征总感觉体现在edge上。
3.自然场景文字检测的难点在于：小目标，遮挡，仿射畸变。本文使用VGG16，只使用conv5，可能对小文字的检测效果不好。
因此，在字符检测是有一些专用的框架，如：CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network)
本文工作基于faster RCNN , 区别在于
1.改进了rpn，anchor产生的window的宽度固定为3;
2.rpn后面不是直接接全连接+分类/回归，而是再通过一个LSTM，再接全连接层;
3.座标仅仅回归一个y，而不是x1, y1, x2, y2;
4.添加 side-refinement offsets（可能这个就是4个回归值中的其中2个）;
二.识别
字符识别的常用框架是CNN+LSTM+CTC

（未完待续）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【目标检测论文阅读】CenterNet :Objects as Points

重點參考博客： https://blog.csdn.net/c20081052/article/details/89358658 https://blog.csdn.net/baobei0112/article/details/94392

2020-07-01 04:01:48

近期必读的6篇 NeurIPS 2019 的零样本学习(Zero-Shot Learning)论文

近期必讀的6篇 NeurIPS 2019 的零樣本學習(Zero-Shot Learning)論文 PS:轉發自“專

2020-06-30 19:50:33

2019年关于主动学习的三篇论文

https://zhuanlan.zhihu.com/p/78350546 目前推廣應用的機器學習方法或模型主要解決分類問題，即給定一組數據（文本、圖像、視頻等），判斷數據類別或將同類數據歸類等，訓練過程依賴於已標註類別的訓練數據集。

2020-06-30 19:50:33

pytorch yolov3

經過漫長的環境配置和調試終於跑通了。參考復現鏈接：https://github.com/eriklindernoren/PyTorch-YOLOv3 環境配置主要版本 pytorch 1.3.1 tensorflow-gpu 1

2020-06-26 02:32:16

Faster R-CNN阅读笔记

Faster R-CNN = Fast R-CNN + RPN RPN是一個全卷積網絡，可以同時預測每個位置的目標邊框和目標得分。RPN通過端到端的訓練產生高質量的候選區域，由Fast R-CNN使用進行目標檢測。本文通過共享卷

2020-06-26 02:32:16

SPP-net阅读笔记

成就相比於深度卷積神經網絡，可以不管圖像的大小而生成固定長度的表示對變形的物體也很有效在準確性相當的前提下，速度比R-CNN更快（24-64× faster overall）做法在R-CNN實現思路的基礎上，在最後一

2020-06-26 02:32:16

读yolo目标识别算法有感

圖像識別算法是計算機視覺的基礎算法，例如VGG，GoogLeNet，ResNet等，這類算法主要是判斷圖片中目標的種類。目標檢測算法和圖像識別算法類似，但是目標檢測算法不僅要識別出圖像中的物體，還需要獲得圖像中物體的大小和位置，使用座標的

2020-06-21 19:10:46

Yolov3训练模型没有框（理论上一定有用的解决方案）

問題描述不知道有多少人遇到過和我一樣的情況，這個問題困擾了我很長時間，這裏特別做一下筆記。本人在Windows10環境下，使用Pycharm進行模型訓練。訓練的時候一切正常，loss值也有明顯下降，但是在使用模型的時候發現與預

2020-06-20 09:58:39

HOG与SIFT特征学习

都點進這個鏈接了，我就不用再贅述這倆特徵是幹嘛的了吧。我就不用再說一遍：他們分別是通過精妙的手工設計的一些方法，來對圖像的進行特徵提取，將圖像中一堆像素轉換成具有其內容特徵的數字向量，因而可以用來給各種模型（如SVM）進行處理的

进击的煎饼果子

2020-06-17 05:18:53

YOLOV3用自己的数据集训练

主要參考：https://www.cnblogs.com/answerThe/p/11481564.html https://www.aiuai.cn/aifarm1097.html 官網有製作YOL

2020-06-16 09:57:47

关于卡尔曼滤波的个人理解

以下爲個人理解卡爾曼濾波就是求兩個高斯分佈的混合高斯分佈的過程其中預測器------預測部分觀測器------真實數據融合兩個分佈------矯正另外，理解卡爾曼濾波的最簡單的方式就是按照這篇博客推導一遍就好了詳解卡爾

2020-06-16 07:40:23

转载：GANS的世界2-0：DG-Net(行人重识别ReID)-目录-史上最新无死角讲解

轉載，原文鏈接：https://blog.csdn.net/weixin_43013761/article/details/102364512 接下來，我會爲大家無死角的解析DG-Net(行人重識別ReID)，之前的文章，如人臉識別：每

2020-06-16 03:50:10

Scalable Person Re-identification: A Benchmark（可扩张的行人重识别：基准）-1

感謝Google翻譯大力支持。摘要：本文爲行人重識別提供一個新的高質量數據集，命名爲命名爲“Market-1501”。一般地，當前的數據集：1）在規模有限; 2）由手繪bboxes，這種設置在實際使用中是不可用的; 3）每個身份（封閉

2020-06-16 03:50:10

yolo学习知识点记录

树莓派派酒

2020-06-03 12:28:22

【目标检测_3】基于tensorflow目标识别API执行已有的模型(运行demo coco数据集)

2020-06-01 17:56:23

24小時熱門文章

最新文章

最新評論文章