大話文本檢測經典模型:EAST

自然場景的文本檢測是當前深度學習的重要應用,在之前的文章中已經介紹了基於深度學習的文本檢測模型CTPN、SegLink(見文章:大話文本檢測經典模型CTPN大話文本檢測經典模型SegLink)。典型的文本檢測模型一般是會分多個階段(multi-stage)進行,在訓練時需要把文本檢測切割成多個階段(stage)來進行學習,這種把完整文本行先分割檢測再合併的方式,既影響了文本檢測的精度又非常耗時,對於文本檢測任務上中間過程處理得越多可能效果會越差。那麼有沒有又快、又準的檢測模型呢?

 

一、EAST模型簡介

本文介紹的文本檢測模型EAST,便簡化了中間的過程步驟,直接實現端到端文本檢測,優雅簡潔,檢測的準確性和速度都有了進一步的提升。如下圖:

其中,(a)、(b)、(c)、(d)是幾種常見的文本檢測過程,典型的檢測過程包括候選框提取、候選框過濾、bouding box迴歸、候選框合併等階段,中間過程比較冗長。而(e)即是本文介紹的EAST模型檢測過程,從上圖可看出,其過程簡化爲只有FCN階段(全卷積網絡)、NMS階段(非極大抑制),中間過程大大縮減,而且輸出結果支持文本行、單詞的多個角度檢測,既高效準確,又能適應多種自然應用場景。(d)爲CTPN模型,雖然檢測過程與(e)的EAST模型相似,但只支持水平方向的文本檢測,可應用的場景不如EAST模型。如下圖:

 

二、EAST模型網絡結構

EAST模型的網絡結構,如下圖:

EAST模型的網絡結構分爲特徵提取層、特徵融合層、輸出層三大部分。

下面展開進行介紹:

1、特徵提取層

基於PVANet(一種目標檢測的模型)作爲網絡結構的骨幹,分別從stage1,stage2,stage3,stage4的卷積層抽取出特徵圖,卷積層的尺寸依次減半,但卷積核的數量依次增倍,這是一種“金字塔特徵網絡”(FPN,feature pyramid network)的思想。通過這種方式,可抽取出不同尺度的特徵圖,以實現對不同尺度文本行的檢測(大的feature map擅長檢測小物體,小的feature map擅長檢測大物體)。這個思想與前面文章介紹的SegLink模型很像;

2、特徵融合層

將前面抽取的特徵圖按一定的規則進行合併,這裏的合併規則採用了U-net方法,規則如下:

  • 特徵提取層中抽取的最後一層的特徵圖(f1)被最先送入unpooling層,將圖像放大1倍
  • 接着與前一層的特徵圖(f2)串起來(concatenate)
  • 然後依次作卷積核大小爲1x1,3x3的卷積
  • 對f3,f4重複以上過程,而卷積核的個數逐層遞減,依次爲128,64,32
  • 最後經過32核,3x3卷積後將結果輸出到“輸出層”

3、輸出層

最終輸出以下5部分的信息,分別是:

  • score map:檢測框的置信度,1個參數;
  • text boxes:檢測框的位置(x, y, w, h),4個參數;
  • text rotation angle:檢測框的旋轉角度,1個參數;
  • text quadrangle coordinates:任意四邊形檢測框的位置座標,(x1, y1), (x2, y2), (x3, y3), (x4, y4),8個參數。

其中,text boxes的位置座標與text quadrangle coordinates的位置座標看起來似乎有點重複,其實不然,這是爲了解決一些扭曲變形文本行,如下圖:

如果只輸出text boxes的位置座標和旋轉角度(x, y, w, h,θ),那麼預測出來的檢測框就是上圖的粉色框,與真實文本的位置存在誤差。而輸出層的最後再輸出任意四邊形的位置座標,那麼就可以更加準確地預測出檢測框的位置(黃色框)。

 

三、EAST模型效果

EAST文本檢測的效果如下圖,其中,部分有仿射變換的文本行的檢測效果(如廣告牌)

EAST模型的優勢在於簡潔的檢測過程,高效、準確,並能實現多角度的文本行檢測。但也存在着不足之處,例如(1)在檢測長文本時的效果比較差,這主要是由於網絡的感受野不夠大;(2)在檢測曲線文本時,效果不是很理想

 

四、Advanced EAST

爲改進EAST的長文本檢測效果不佳的缺陷,有人提出了Advanced EAST,以VGG16作爲網絡結構的骨幹,同樣由特徵提取層、特徵合併層、輸出層三部分構成。經實驗,Advanced EAST比EAST的檢測準確性更好,特別是在長文本上的檢測。

網絡結構如下:

 

牆裂建議

2017年,Xinyu Zhou 等人發表了關於EAST的經典論文《 EAST: An Efficient and Accurate Scene Text Detector 》,在論文中詳細介紹了EAST的技術原理,建議閱讀該論文以進一步瞭解該模型。

 

關注本人公衆號“大數據與人工智能Lab”(BigdataAILab),然後回覆“論文”關鍵字可在線閱讀經典論文的內容

 

推薦相關閱讀

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章