文本檢測綜述

原創

2019-09-02 23:14

OCR(Optical Character Recignition) 光學字符識別

文本檢測 + 文本識別

傳統OCR

圖像預處理；版面處理；圖像切分；特徵提取、匹配及模型訓練；識別後處理

預處理：灰度化、二值化、傾斜檢測與矯正，平滑、規範化
版面處理：版面分析、版面理解、版面重構
圖像切分：行（列）切分和字切分
特徵提取與模型訓練：特徵提取及匹配、模型訓練
識別後處理：版面恢復和識別矯正

文本檢測：

SWT(Stroke Width Transform) 筆畫寬度變化

MSER(Robust wide-baseline stereo from maximally stable extremal regions) 最大穩定極值區域

對文字形狀變化（文字模糊、筆畫粘連、斷筆、黑白不均、油墨反透）的適應性和抗干擾性比較差

深度OCR

簡單說一下爲什麼通用目標檢測不能用於文本檢測：

目標檢測

候選區域、特徵提取、分類、位置精修

RCNN

一整圖像生成1K~2K個候選區域（Selective Search）
對每個候選區域，使用深度網絡提取特徵
特徵送入每一類的SVM分類器，判別是否屬於該類
使用迴歸器精細修正候選框位置

Fast-RCNN

整張圖歸一化後直接送入深度網絡
在ROI Pooling層才輸入候選框
然後再進行分類和迴歸

Faster-RCNN

區域生成網絡 + Fast-RCNN （使用區域生成網絡代替 Fast-RCNN中的 Selective Search 方法）

基礎網絡做特徵提取
特徵送入RPN做候選框提取
分類層對候選框內物體進行分類，迴歸層對候選框的座標進行精細調整

文本特點：

使用通用目標檢測方法做文本檢測效果不好，因爲文本有自己獨有的特點，這種通用的文本檢測並不能很好的解決文本的這些特點：

文本大多數以長矩形形式存在，與普通的目標檢測中的物體不一樣（長寬比接近於1）
普通物體存在明顯的閉合邊緣輪廓，而文本沒有
文本中包含多個文字，而文字之間是有間隔的，如果檢測做的不好，我們就會把每個字都當成文本行給框出來而非整行作爲文本框，這與我們的期望不一樣

基於以上文本檢測的特點，必須對Faster-RCNN這類通用網絡進行改進，設計出適合文本檢測全新架構。

文本檢測

1. CTPN（Detecting Text in Natural Image with Connectionist Text Proposal Network）

考慮到文本框以長矩形存在，首先檢測文本的一小部分，判斷是不是文本的一部分，然後將同一個文本框的小文本框合併，得到一個完整的、大的文本框。
考慮到文本都是連續字符，連續的上下文本信息很重要，所以使用了RNN（BLSTM）來進一步提升效果。還有就是如果僅僅根據一個文本框的信息預測該框內含不含有文字是很草率的，如果參考這個框的左邊和右邊的信息後，也就是使用RNN將左右信息利用起來，會大大提升預測的準確率。
對 y 軸中心和高度的偏移進行迴歸（寬度固定爲16，高度在 11-283之間）
使用邊緣細化方法精修邊緣
將各部分進行文本行構建

缺點：對於非水平文本的檢測效果不好，比如彎曲文本、多向文本（垂直文本）。

2. SegLink（Detecting Oriented Text in Natural Images by link Segments）

與CTPN思想類似，都是先找出文本行的一部分，然後再連接所有的部分，組成一個完整的文本行；
在SSD基礎上加入了旋轉角度的學習；
在小部分文本框之前用連接線（相鄰框的中點連線）來表示屬不屬於同一個文本框，也是用網絡來學習；
使用融合規則將各個階段的框信息和線信息進行融合，組成文本行。

[外鏈圖片轉存失敗(img-xDAPMPAU-1567046118443)(./images/SegLink結構圖.png)]

缺點：不能檢測間隔很大的文本行，不能檢測彎曲文本

3. EAST（EAST: An Efficient and Accurate Scene Text Detector）

把完整文本行先分割檢測再合併的思路，做法比較麻煩，把文本檢測切割成多階段來進行，增大了文本檢測精度的損失和時間消耗，中間處理影響效果。（候選框選取，候選框過濾，bbox迴歸，候選框合併）

通過FCN結構的網絡直接學習是不是文本框以及文本框的座標和角度（或者八個座標）；
局部感知NMS（先合併再NMS），降低了NMS的複雜度。
精度和速度都有所提高

缺點：感受野不大，對於長文本檢測不是很好，比較適合短文本行檢測

AdvancedEAST：score map -> 文本頭部、中部和尾部三部分，沒有從根本上解決長文本檢測。

4. PSENet（Shape Robust Text Detection with Progressive Scale Expansion Network）

bbox迴歸的方法對彎曲文本的檢測不準確，分割的方法對文字緊靠的情況分割效果不好。

亮點：漸進式擴展算法

是一個基於像素分割的方法，能夠精確地定位任意形狀的文本實例；
提出了漸進式擴展算法，即使兩個文本實例離得很近也可以分開，從而保證文本實例的準確位置

從最小尺度的kernels開始擴展，最小的kernels可以把緊靠的文本實例分開；逐漸擴展到更大的kernels；直到擴展到最大的kernels，組成最終的結果。

缺點：對於不同的數據集，超參數的選取較爲重要（最小尺度比例和分割結果數）。

5. LSAE（Learning Shape-Aware Embedding for Scene Text Detection）

亮點：嵌入形狀感知

分離緊靠的文本實例
解決文本行過長的問題

使用輸出的三個結果做聚類。

6. ATRR（Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation）

使用LSTM網絡學習應該使用多少個點來表示文本框。

類似於Faster-RCNN，增加了基於自適應文本表示的LSTM分支。

7. CRAFT（Character Region Awareness for Text Detection）

通過精確的定位每一個字符，然後再把檢測到的字符連接成一個文本。

生成兩部分GT，字符框 + 親和框（同一文本框中的相鄰字符），使用高斯熱圖
字符感知方法，只需要很小的感受野就可以了處理長的彎曲文本

缺點：對粘連字符的檢測效果不好；對標註數據的要求高；使用弱監督學習生成僞GT造成的損失；訓練複雜，需要先進行弱監督訓練得到字符級標註框，再訓練網絡。

參考資料：

傳統OCR

目標檢測

2017文本檢測

2018文本檢測

文本檢測

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

深度學習基礎——張量的通俗理解

轉載鏈接：https://www.cnblogs.com/abella/p/10142935.html 也許你已經下載了TensorFlow，而且準備開始着手研究深度學習。但是你會疑惑：TensorFlow裏面的Tensor，也就是“

2020-07-08 11:53:15

視頻目標分割之Video Object Segmentation using Space-Time Memory Networks

Video Object Segmentation using Space-Time Memory Networks 文章目錄Video Object Segmentation using Space-Time Memory Ne

2020-07-08 11:18:09

基於attention機制實現 CRNN OCR文字識別

定義網絡結構實現 BahdanauAttention，其中socre的實現方法爲 perceptron 形式 class BahdanauAttention(tf.keras.Model): def __init__(sel

2020-07-08 12:23:28

opencv 加載tensorflow pb模型

opencv加載的pb模型必須是用tf.layers 和 tf.nn 下的api構建的,使用slim會在加載時報未知的layer的錯誤基本流程: 1.加載pb bool CardDetect::load_model(string mo

2020-07-08 12:23:28

深度學習-攢機小記

預算1w以內吧。下面是英偉達DevBox的配置，可以作爲參考。 The DIGITS DevBox includes the following hardware and software: Four TITAN X GPU

2020-07-08 12:17:40

聊天機器人/對話生成

在這裏記錄一下聊天機器人方面的瞭解。算是一個Survey吧。聊天機器人有兩種技術方向： 1. 基於檢索 2. 基於生成模型術語 Generation based automatic chatting system Ne

2020-07-08 12:17:40

推薦系統系列（二）：從零開始搭建基於向量的推薦策略

從零開始搭建基於向量的推薦策略背景架構離線Pipeline搭建用戶行爲日誌上報日誌存儲到數據倉庫數據預處理模型訓練構建項目索引在線服務用戶向量預測最近項目查找總結參考背景向量召回/語義向量召回是現在流行的一種推薦策略，簡單來說

2020-07-08 12:17:27

論文解讀：Single path one-shot neural architecture search with uniform sampling

Single path one-shot neural architecture search with uniform sampling 1、總覽大多數搜索空間鬆弛化的方法裏，結構分佈是被連續地參數化了，這些參數在超網絡訓練時一同被

2020-07-08 12:06:15

深度學習論文中的一些術語（僅備份用，不定時更新）

hinge loss: 是機器學習領域中的一種損失函數，可用於“最大間隔(max-margin)”分類 hinge loss 函數是凸函數，因此機器學習中很多的凸優化方法同樣適用於 hinge loss empirical risk: 經

2020-07-08 12:04:52

深度學習_目標檢測_FPN論文詳解

FPN的創新點多層特徵特徵融合解決了目標檢測中的多尺度問題，通過簡單的網絡連接改變，在基本不增加原有模型計算量的情況下，大幅度提升小物體（small object）的檢測性能。在物體檢測裏面，有限計算量情況下，網絡的深

2020-07-08 11:57:07

深度學習_目標檢測_“YOLOv5”詳解（持續更新）

YOLOv5可以方便的進行工程化部署： YOLOv5（PyTorch）−>ONNX−>CoreML−>iosYOLOv5（PyTorch） -> ONNX -> CoreML -> iosYOLOv5（PyTorch）−>ONNX

2020-07-08 11:57:07

[深度之眼]LeNet/AlexNet/VGGNet/InceptionNet/ResNet實現fashion_mnist分類

本文使用五種經典卷積神經網絡，實現fashion_mnist十分類問題，並對比準確度和運行時間LeNet5 原理AlexNet8 原理VGGNet16 原理InceptionNet10 原理ResNet18 原理用到的包： im

2020-07-08 11:53:37

TensorFlow+CNN+OpenCV快速識別中文驗證碼

聲明:文章僅源自個人興趣愛好，不涉及他用，侵權聯繫刪。轉載請註明：轉自此博文https://leejason.blog.csdn.net/article/details/106150572 TensorFlow+CNN+Open

2020-07-08 11:43:39

apt-get update 卡在working 0 已解決

Ign:1 http://mirrors.163.com/ubuntu trusty InRelease Get:2 http://mirrors.163.com/ubuntu trusty-security InRelease

一蓑烟雨任平生yu

2020-07-08 11:20:23

深度學習調參技巧pdf . Free download!

這裏有一份深度學習的調參技巧《Neural Networks: Tricks of the Trade》收錄了許多論文裏提出的調參技巧。送給大家！鏈接: https://pan.baidu.com/s/1dtKVOYsu6pY

一蓑烟雨任平生yu

2020-07-08 11:20:22

24小時熱門文章

最新文章

最新評論文章