【論文學習】Feature Pyramid Based Scene Text Detector

Feature Pyramid Based Scene Text Detector

刊物:ICDAR 2017

作者:MengYi En,Beijing University of Technology

內容:OCR,多尺度場景下的文本檢測


Abstract

問題:CNN網絡在文本檢測時,高層特徵圖丟失低層細節,導致小目標檢測效果差。

本文方案:提出一種基於特徵金字塔的文本檢測器(Feature Pyramid based Text Detector,FPTD)。該框架基於SSD(Single Shot Detector)目標檢測算法,但同時結合特徵金字塔思想,採用一種自上向下的特徵融合策略,獲取新的特徵,既包含高層分辨能力強的語義信息特徵又包含低層高分辨率且細節完整的特徵。

大致流程:文本檢測會在多個融合的特徵上獨立發生,結果再彙集之後進行非最大值抑制(Non-maximum Suppression,NMS),由於特徵圖來自不同層,它們都包含了高層的語義信息,且尺度不同,所以該框架能夠處理不同尺度場景下的文字檢測。

實驗結論:本文框架在增加微弱額外開銷的情況下,在ICDAR2013文本標定數據集上取得很好的效果。

ps:其實本文就是FPN網絡在OCR領域的應用。本文的框架思想是完全借鑑於特徵金字塔網絡的。

Feature Pyramid Networks for Object Detection,CVPR2017


Introduction

相比傳統的OCR(optical character recognition),複雜場景下的文本定位和識別存在很多困難,如文字失真扭曲

、圖像模糊、光線不均、背景複雜、字符交錯、顏色尺寸及文字方向多變等問題。

CNN具有強大的特徵學習能力,但是在多尺度檢測問題上存在不足。本文提出一種融合高低各層特徵圖的特徵金字塔方法用於不同尺度的場景文本的檢測。

本文主要貢獻:

  • 提出了新的端到端的多尺度場景文本的檢測框架
  • 首次將特徵金字塔引入到場景文本檢測領域

主要介紹介紹三個方面的相關研究進展——基於深度網絡的物體檢測算法、場景文本檢測算法和多尺度特徵問題。

深度網絡的目標檢測算法

  • R-CNN。CNN用於Object detection的開山之作,獲得巨大的準確率提升,但時間開銷巨大。
  • Fast R-CNN。每張圖只提取一次特徵圖,從而提升了檢測算法的速度。
  • Faster R-CNN,引入區域推薦網絡(Region Proposal Network,RPN),速度再次提升基本達到實時。
  • YOLO。將目標檢測看作迴歸問題,輸入整幅原圖直接預測物體邊界框(Bounding Boxes),並在最上層的特徵圖(Feature Map)上進行類別可能性的預測。雖然犧牲部分精度,但達到實時速度。
  • SSD。不同層採用針對多尺度特徵設計好的不同錨點框(anchor boxes)進行區域推薦。極大的提高了檢測準確率同時保持算法的高效。

得益於近年來物體檢測算法的發展,基於深度網絡的場景文本檢測算法逐漸流行。

  • 《Serge Belongie. Detecting Oriented Text in Natural Images by Linking Segments》。全卷積網絡(Fully convolutional network,FCN)被引入用於文本的特徵提取。且提出一種將文本分解爲局部的兩個可檢測的元素,segments(碎片)和links(連接),同時在CNN中進行預測,之後再聯合得到最終的檢測結果。
  • 《Deeptext: A unified framework for text proposal generation and text detection in natural images》提出了基於Faster R-CNN的文本檢測框架,該文設計了一種inception-RPN,用多尺度卷積核進行文本區域的提議。
  • 《Arbitrary-Oriented Scene Text Detection via Rotation Proposals》提出了基於Faster R-CNN檢測多方向文本的框架。
  • 《A Fast Text Detector with a Single Deep Neural Network》、《Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection》 基於SSD進行多方向文本檢測。

目標檢測中的多尺度問題

傳統方式是將圖像金字塔作爲輸入,但是深度網絡中多尺度圖片同時輸入對內存消耗太高。GoogLeNet採用在單尺度圖像上進行多尺度濾波來解決多尺度問題。Faster R-CNN通過引入多尺度和不同aspect ratio的anchor boxes來處理不同尺度問題,但由於其特徵圖來自最後的卷積層,導致分辨率粗糙,影響小目標的檢測性能。

FCN、HyperNet、ParseNet、RCF及FPN等方法被提出以解決目標識別中的尺度問題。


Methodology

1. CNN體系

本文提出的FPTD如下圖所示。其基於SSD框架,採用VGG-16網絡,但是fc6和fc7由全連接層變成卷積層,然後增加額外的層(從conv6_1到pool6)

這裏寫圖片描述

網絡主體的旁邊添加了數個新的層,形成一條旁路。包括反捲積層,元素累加層及構建新特徵的層。圖片進入網絡會經過網絡的兩個路徑。網絡的主框架(backbone)完成特徵的提取,而旁路層構建新的特徵。

隨着網絡加深,主架上提取的特徵分辨率降低,底層細節逐漸丟失,但語義加強。從不同的網絡層對應的旁路上的構建新特徵形成了一個特徵金字塔。

2. 構建新的特徵金字塔的策略

採用高層和低層融合的方式得到空間細節飽滿同時語義信息豐富的特徵。但是,融合不同層特徵圖面對一個問題:不同層的特徵圖通常在尺度和規模上差異明顯(統計各層的activation可得,見下圖Table1)。比如直接融合高層和低層得特徵圖,則得到得結果特徵圖由“大值”主導(即值小的那層的信息作用甚微)。

這裏寫圖片描述

下圖說明了特徵融合的過程。首先將高層低分辨率的特徵圖反捲積,這樣兩部分尺寸(分辨率)契合。再對高分辨率的低層特徵圖做1×1 的卷積。最後兩部分按元素相加。再對結果做一個3×3 的卷積得到最終融合的特徵圖。

這裏寫圖片描述

此處1×1 的卷積作用如下:

  • 統一不同層的通道數。(3維上的卷積?得到一個單通道的特徵圖?)
  • 將不同層的特徵圖的值調整到合適的範圍內。

下圖可見經過1×1 的卷積,不同層的activation的統計量基本達到相似範圍。

這裏寫圖片描述

之後再通過一個3×3 的卷積抽取更多語義信息,同時減小上採樣帶來的不利影響。

3. 文本檢測

  • 選用主架網絡上的pool6,conv8_2,conv7_2層,以及旁路網絡上的new built conv6_2,new built fc7 和new built conv7_2層的特徵圖進行文本檢測。
  • 特徵圖上的每個位置(pixel)都關聯着一系列prior boxes。每個prior boxes都覆蓋着輸入圖像的一部分區域。
  • 每一個被用作檢測的特徵圖都連接着兩個5×1 的卷積層,一個用做預測每個prior box的自信度得分。一個用作預測座標的補償(調節prior box大小)。

4. 學習過程

loss function由分類loss和定位loss組成:

L(x,c,l,g)=1N(Lconf(x,c)+αLloc(x,l,g))

N是正prior boxes樣本數,Lloc 採用L1 loss,Lconf 採用2分類的softmax loss。a是權重項,這裏設爲1。


Experiments

對ICDAR 2013的文本定位任務進行了一系列實驗,採用場景文本數據庫。評估協議是ICDAR2013的評估尺度。

1. Dataset

使用兩個數據集進行整個實驗。

  • SynthText:人工合成的數據集。包含80萬張圖片,8百萬合成的文本語句實例。該數據集用來預訓練模型。
  • ICDAR 2013:該數據集包含229張圖用於訓練,223張圖用於測試。在預訓練的模型上進行fine-tune,然後用ICDAR 2013數據集的測試集評估模型。

2. Implementation Details

  • FPTD採用在ILSVRC CLS-LOC數據集上預訓練好的VGG-16模型,訓練採用512×512 的單尺度圖片。
  • 採用小批次隨機梯度下降優化算法(Mini-batch stochastic gradient descent,MSGD)。
  • Momentum設爲0.9,weight decay設置爲5×104 .
  • 訓練第一階段:用預訓練好的VGG-16模型初始化網絡,然後再SynthText數據集上進行55000次迭代訓練,前35000次迭代學習率爲0.001,接下來5000次迭代學習率爲0.0005,最後的15000次迭代採用0.0001的學習率。
  • 訓練第二階段:在ICDAR 2013數據集上進行1000次fine-tune
  • 由於特徵圖融合的過程採用元素相加操作,所以FPTD的輸入圖像尺寸必須是2的冪次方(防止上下采樣丟失尺寸,從而無法進行融合)。

3.Experiments for verifying the effectiveness of the new build features

使用TextBox作爲基準模型。測試結果如下

這裏寫圖片描述

4. Experiments for detecting small text

  • 爲了檢測小目標,我們構建了FPTD-5,在旁路上增加了conv3_3層。
  • 測試的時候,爲了增加小目標,我們將測試圖片縮小到256×256
  • 同樣,TextBox模型也用256的圖片作爲輸入(TextBox-2)。

這裏寫圖片描述

5.Comparisions with other state-of-the-art methods

這裏寫圖片描述

此處FPTD採用的是實驗中FPTD-3,本文的方法獲得更高的召回率,同時F-measure指標也很不錯。


ps:本文偏重於工程實現,創新新並不強,這種情況下,實驗的充分與否就很重要了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章