【轉載】【論文筆記】文本檢測之EAST

【原文地址】https://zhuanlan.zhihu.com/p/37504120

簡介

論文題目：EAST: An Efficient and Accurate Scene Text Detector

論文地址：https://arxiv.org/pdf/1704.03155.pdf

傳統的文本檢測方法和一些基於深度學習的文本檢測方法，大多是multi-stage，在訓練時需要對多個stage調優，這勢必會影響最終的模型效果，而且非常耗時．針對上述存在的問題，本文提出了端到端的文本檢測方法，消除中間多個stage(如候選區域聚合，文本分詞，後處理等)，直接預測文本行．

下圖給的是幾個不同框架的檢測pipeline：可以發現本文只包含兩個stage

論文關鍵idea

提出了基於two-stage的文本檢測方法：全卷積網絡(FCN)和非極大值抑制(NMS)，消除中間過程冗餘，減少檢測時間．
該方法即可以檢測單詞級別，又可以檢測文本行級別．檢測的形狀可以爲任意形狀的四邊形：即可以是旋轉矩形(下圖中綠色的框)，也可以是普通四邊形(下圖中藍色的框)）．
採用了Locality-Aware NMS來對生成的幾何進行過濾
該方法在精度和速度方面都有一定的提升．

Pipeline

論文的思想非常簡單，結合了DenseBox和Unet網絡中的特性，具體流程如下：

先用一個通用的網絡(論文中採用的是Pvanet，實際在使用的時候可以採用VGG16，Resnet等)作爲base net ，用於特徵提取
基於上述主幹特徵提取網絡，抽取不同level的feature map（它們的尺寸分別是inuput-image的 $\tfrac{1}{32}$ ， $\tfrac{1}{16}$ ， $\tfrac{1}{8}$ ， $\tfrac{1}{4}$ ），這樣可以得到不同尺度的特徵圖．目的是解決文本行尺度變換劇烈的問題，ealy stage可用於預測小的文本行，late-stage可用於預測大的文本行．
特徵合併層，將抽取的特徵進行merge．這裏合併的規則採用了U-net的方法，合併規則：從特徵提取網絡的頂部特徵按照相應的規則向下進行合併，這裏描述可能不太好理解，具體參見下述的網絡結構圖
網絡輸出層，包含文本得分和文本形狀．根據不同文本形狀(可分爲RBOX和QUAD)，輸出也各不相同，具體參看網絡結構圖

實現細節

合併層中feature map的合併規則

具體的合併步驟如下：

特徵提取網絡層中抽取的最後層feature map被最先送入uppooling層(這裏是將圖像放大原先的２倍)，
然後與前一層的feature map進行concatenate，
接着依次送入卷積核大小爲 $1\times{1}$ ， $3\times{3}$ ，卷積核的個數隨着層遞減，依次爲128，64，32
重複1-3的步驟２次
將輸出經過一個卷積核大小爲 $3\times{3}$ ，核數爲32個

具體的公式如下：

輸出層的輸出

對於檢測形狀爲RBOX，則輸出包含文本得分和文本形狀(AABB boundingbox 和rotate angle)，也就是一起有６個輸出，這裏AABB分別表示相對於top,right,bottom,left的偏移
對於檢測形狀爲QUAD，則輸出包含文本得分和文本形狀(８個相對於corner vertices的偏移)，也就是一起有９個輸出，其中QUAD有８個，分別爲 $(x_{i},y_{i}),i\subset [1,2,3,4]$

訓練標籤生成

QUAD的分數圖生成

得分圖上QUAD的正面積爲原圖的縮小版，縮小的規則如下：

對一個四邊形Q={pi|i屬於1,2,3,4},pi是按順時針順序排列的四邊形的頂點。對於縮小的Q，我們首先計算ri：

$r_{i}=min(D(p_{i},p_{(i mod 4)+1},D(p_{i},p_{(i-1) mod 4)+1})$
D(pi,pj)是兩個頂點pi和pj之間的L2距離。

我們首先收縮兩個長點的邊，再收縮兩個短點的邊。對於每對對邊，我們通過比較平均長度值來確定長邊。對於每個邊 $<p_{i},p_{(i mod 4 +1)}>$ ，我們分別通過沿邊賂內移動兩個端點收縮它，分別爲 $0.3r_{i}$ 和 $0.3r_{(i mod 4)+1}$ ，這裏論文中縮放的係數是0.3，具體可以根據你的實際任務設置。