字符識別OCR(optical character recognition)經典框架解析

原創

2018-08-28 00:46

字符識別通常包含2個階段：
1.字符檢測(detection)
2.字符識別(recognition)
一.檢測
檢測常用的框架包括：R-CNN ,fast R-CNN,faster R-CNN,YOLO,SDD等框架。但是由於字符檢測與通用的字符檢測有一定的差別，字符有其特殊的特徵:
1.文字目標的特殊性，一個很大的先驗是，文字總是水平排列的。
2.文字的特徵總感覺體現在edge上。
3.自然場景文字檢測的難點在於：小目標，遮擋，仿射畸變。本文使用VGG16，只使用conv5，可能對小文字的檢測效果不好。
因此，在字符檢測是有一些專用的框架，如：CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network)
本文工作基於faster RCNN , 區別在於
1.改進了rpn，anchor產生的window的寬度固定爲3;
2.rpn後面不是直接接全連接+分類/迴歸，而是再通過一個LSTM，再接全連接層;
3.座標僅僅迴歸一個y，而不是x1, y1, x2, y2;
4.添加 side-refinement offsets（可能這個就是4個迴歸值中的其中2個）;
二.識別
字符識別的常用框架是CNN+LSTM+CTC

（未完待續）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【目標檢測論文閱讀】CenterNet :Objects as Points

重點參考博客： https://blog.csdn.net/c20081052/article/details/89358658 https://blog.csdn.net/baobei0112/article/details/94392

2020-07-01 04:01:48

近期必讀的6篇 NeurIPS 2019 的零樣本學習(Zero-Shot Learning)論文

近期必讀的6篇 NeurIPS 2019 的零樣本學習(Zero-Shot Learning)論文 PS:轉發自“專

2020-06-30 19:50:33

2019年關於主動學習的三篇論文

https://zhuanlan.zhihu.com/p/78350546 目前推廣應用的機器學習方法或模型主要解決分類問題，即給定一組數據（文本、圖像、視頻等），判斷數據類別或將同類數據歸類等，訓練過程依賴於已標註類別的訓練數據集。

2020-06-30 19:50:33

pytorch yolov3

經過漫長的環境配置和調試終於跑通了。參考復現鏈接：https://github.com/eriklindernoren/PyTorch-YOLOv3 環境配置主要版本 pytorch 1.3.1 tensorflow-gpu 1

2020-06-26 02:32:16

Faster R-CNN閱讀筆記

Faster R-CNN = Fast R-CNN + RPN RPN是一個全卷積網絡，可以同時預測每個位置的目標邊框和目標得分。RPN通過端到端的訓練產生高質量的候選區域，由Fast R-CNN使用進行目標檢測。本文通過共享卷

2020-06-26 02:32:16

SPP-net閱讀筆記

成就相比於深度卷積神經網絡，可以不管圖像的大小而生成固定長度的表示對變形的物體也很有效在準確性相當的前提下，速度比R-CNN更快（24-64× faster overall）做法在R-CNN實現思路的基礎上，在最後一

2020-06-26 02:32:16

讀yolo目標識別算法有感

圖像識別算法是計算機視覺的基礎算法，例如VGG，GoogLeNet，ResNet等，這類算法主要是判斷圖片中目標的種類。目標檢測算法和圖像識別算法類似，但是目標檢測算法不僅要識別出圖像中的物體，還需要獲得圖像中物體的大小和位置，使用座標的

2020-06-21 19:10:46

Yolov3訓練模型沒有框（理論上一定有用的解決方案）

問題描述不知道有多少人遇到過和我一樣的情況，這個問題困擾了我很長時間，這裏特別做一下筆記。本人在Windows10環境下，使用Pycharm進行模型訓練。訓練的時候一切正常，loss值也有明顯下降，但是在使用模型的時候發現與預

2020-06-20 09:58:39

HOG與SIFT特徵學習

都點進這個鏈接了，我就不用再贅述這倆特徵是幹嘛的了吧。我就不用再說一遍：他們分別是通過精妙的手工設計的一些方法，來對圖像的進行特徵提取，將圖像中一堆像素轉換成具有其內容特徵的數字向量，因而可以用來給各種模型（如SVM）進行處理的

进击的煎饼果子

2020-06-17 05:18:53

YOLOV3用自己的數據集訓練

主要參考：https://www.cnblogs.com/answerThe/p/11481564.html https://www.aiuai.cn/aifarm1097.html 官網有製作YOL

2020-06-16 09:57:47

關於卡爾曼濾波的個人理解

以下爲個人理解卡爾曼濾波就是求兩個高斯分佈的混合高斯分佈的過程其中預測器------預測部分觀測器------真實數據融合兩個分佈------矯正另外，理解卡爾曼濾波的最簡單的方式就是按照這篇博客推導一遍就好了詳解卡爾

2020-06-16 07:40:23

轉載：GANS的世界2-0：DG-Net(行人重識別ReID)-目錄-史上最新無死角講解

轉載，原文鏈接：https://blog.csdn.net/weixin_43013761/article/details/102364512 接下來，我會爲大家無死角的解析DG-Net(行人重識別ReID)，之前的文章，如人臉識別：每

2020-06-16 03:50:10

Scalable Person Re-identification: A Benchmark（可擴張的行人重識別：基準）-1

感謝Google翻譯大力支持。摘要：本文爲行人重識別提供一個新的高質量數據集，命名爲命名爲“Market-1501”。一般地，當前的數據集：1）在規模有限; 2）由手繪bboxes，這種設置在實際使用中是不可用的; 3）每個身份（封閉

2020-06-16 03:50:10

yolo學習知識點記錄

树莓派派酒

2020-06-03 12:28:22

【目標檢測_3】基於tensorflow目標識別API執行已有的模型(運行demo coco數據集)

2020-06-01 17:56:23

24小時熱門文章

最新文章

最新評論文章