大話文本檢測經典模型：EAST

自然場景的文本檢測是當前深度學習的重要應用，在之前的文章中已經介紹了基於深度學習的文本檢測模型CTPN、SegLink（見文章：大話文本檢測經典模型CTPN、大話文本檢測經典模型SegLink）。典型的文本檢測模型一般是會分多個階段（multi-stage）進行，在訓練時需要把文本檢測切割成多個階段（stage）來進行學習，這種把完整文本行先分割檢測再合併的方式，既影響了文本檢測的精度又非常耗時，對於文本檢測任務上中間過程處理得越多可能效果會越差。那麼有沒有又快、又準的檢測模型呢？

一、EAST模型簡介

本文介紹的文本檢測模型EAST，便簡化了中間的過程步驟，直接實現端到端文本檢測，優雅簡潔，檢測的準確性和速度都有了進一步的提升。如下圖：

其中，（a）、（b）、（c）、（d）是幾種常見的文本檢測過程，典型的檢測過程包括候選框提取、候選框過濾、bouding box迴歸、候選框合併等階段，中間過程比較冗長。而（e）即是本文介紹的EAST模型檢測過程，從上圖可看出，其過程簡化爲只有FCN階段（全卷積網絡）、NMS階段（非極大抑制），中間過程大大縮減，而且輸出結果支持文本行、單詞的多個角度檢測，既高效準確，又能適應多種自然應用場景。（d）爲CTPN模型，雖然檢測過程與（e）的EAST模型相似，但只支持水平方向的文本檢測，可應用的場景不如EAST模型。如下圖：

二、EAST模型網絡結構

EAST模型的網絡結構，如下圖：

EAST模型的網絡結構分爲特徵提取層、特徵融合層、輸出層三大部分。

下面展開進行介紹：

1、特徵提取層

基於PVANet（一種目標檢測的模型）作爲網絡結構的骨幹，分別從stage1，stage2，stage3，stage4的卷積層抽取出特徵圖，卷積層的尺寸依次減半，但卷積核的數量依次增倍，這是一種“金字塔特徵網絡”（FPN，feature pyramid network）的思想。通過這種方式，可抽取出不同尺度的特徵圖，以實現對不同尺度文本行的檢測（大的feature map擅長檢測小物體，小的feature map擅長檢測大物體）。這個思想與前面文章介紹的SegLink模型很像；

2、特徵融合層

將前面抽取的特徵圖按一定的規則進行合併，這裏的合併規則採用了U-net方法，規則如下：

特徵提取層中抽取的最後一層的特徵圖（f1）被最先送入unpooling層，將圖像放大1倍
接着與前一層的特徵圖（f2）串起來（concatenate）
然後依次作卷積核大小爲1x1，3x3的卷積
對f3，f4重複以上過程，而卷積核的個數逐層遞減，依次爲128，64，32
最後經過32核，3x3卷積後將結果輸出到“輸出層”

3、輸出層

最終輸出以下5部分的信息，分別是：

score map：檢測框的置信度，1個參數；
text boxes：檢測框的位置（x, y, w, h），4個參數；
text rotation angle：檢測框的旋轉角度，1個參數；
text quadrangle coordinates：任意四邊形檢測框的位置座標，(x1, y1), (x2, y2), (x3, y3), (x4, y4)，8個參數。

其中，text boxes的位置座標與text quadrangle coordinates的位置座標看起來似乎有點重複，其實不然，這是爲了解決一些扭曲變形文本行，如下圖：

如果只輸出text boxes的位置座標和旋轉角度（x, y, w, h,θ），那麼預測出來的檢測框就是上圖的粉色框，與真實文本的位置存在誤差。而輸出層的最後再輸出任意四邊形的位置座標，那麼就可以更加準確地預測出檢測框的位置（黃色框）。

三、EAST模型效果

EAST文本檢測的效果如下圖，其中，部分有仿射變換的文本行的檢測效果（如廣告牌）

EAST模型的優勢在於簡潔的檢測過程，高效、準確，並能實現多角度的文本行檢測。但也存在着不足之處，例如（1）在檢測長文本時的效果比較差，這主要是由於網絡的感受野不夠大；（2）在檢測曲線文本時，效果不是很理想

四、Advanced EAST

爲改進EAST的長文本檢測效果不佳的缺陷，有人提出了Advanced EAST，以VGG16作爲網絡結構的骨幹，同樣由特徵提取層、特徵合併層、輸出層三部分構成。經實驗，Advanced EAST比EAST的檢測準確性更好，特別是在長文本上的檢測。

網絡結構如下：

牆裂建議

2017年，Xinyu Zhou 等人發表了關於EAST的經典論文《 EAST: An Efficient and Accurate Scene Text Detector 》，在論文中詳細介紹了EAST的技術原理，建議閱讀該論文以進一步瞭解該模型。

關注本人公衆號“大數據與人工智能Lab”（BigdataAILab），然後回覆“論文”關鍵字可在線閱讀經典論文的內容。

推薦相關閱讀

大話文本檢測經典模型：EAST

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

【AI實戰】手把手教你深度學習文字識別（文字檢測篇：基於MSER, CTPN, SegLink, EAST等方法）

【AI實戰】深度學習基礎環境搭建（Ubuntu + anaconda + tensorflow + GPU + PyCharm）

大話文本檢測經典模型：SegLink

大話文本檢測經典模型：EAST

【AI實戰】手把手教你實現文字識別模型（入門篇：驗證碼識別）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結