EAST（An Efficient and Accurate Scene Text Detector）論文閱讀筆記

文章目錄
@[toc]
貢獻
方法
1. Pipeline
2.Network Design（網絡設計）
3.Label Generation（標籤生成）
4. Loss Functions（損失函數）
5. Locality-Aware NMS（局部感知NMS）
總結
參考文章及代碼

論文中作者網絡（e）與其他網絡對比

貢獻

只包含兩個階段：全卷積網絡（FCN）和非極大值抑制（NMS）。FCN直接產生文本區域，沒有冗餘和耗時的中間步驟。
可以靈活的生成詞級或者行級的預測，它們的集合形狀可以是旋轉框或者四邊形。
採用了Locality-Aware NMS來對生成的幾何進行過濾
所提出的算法在精度和速度方面都有所提高

方法

特徵提取主幹 + 特徵合併分支 + 輸出層部分

1. Pipeline

該模型是一個全卷積的神經網絡，適用於文本檢測，輸出密集的每個像素預測的單詞或文本行。後處理步驟僅包括預測幾何形狀的閾值和NMS。

其中圖像被饋送到FCN，並且生成多個像素級文本得分圖（Score Map）和幾何通道。預測通道中的一個是得分圖，其像素值在[0,1]的範圍內。其餘通道表示從每個像素的視圖中包圍該單詞的幾何。分數代表在相同位置預測的幾何形狀的置信度。

兩種幾何形狀（旋轉框RBOX和四邊形QUAD），分別設計了不同的損失函數。使用閾值過濾掉一些幾何，然後NMS，得到最終輸出。

2.Network Design（網絡設計）

特徵融合（結合不同級別的網絡特徵）。爲了降低計算成本沒有采用HyperNet，而是採用了U形網絡的思想。

特徵提取主幹 + 特徵合併分支 + 輸出層部分

特徵能提取主幹：用於提取特徵，採用 PVANet（文末的代碼中使用的是ResNet_v1_50）
特徵合併分支：
- 在每個合併階段，使用最後一個階段的feature map 進行uppooling（上採樣將原圖像放大2倍）
- 然後與前一層 feature map 連接 concatenate
- 接着使用1×1卷積覈減少通道數量並減少計算（卷積核的個數128，64，32）
- 然後使用3×3卷積核產生該合併階段的輸出（卷積核的個數128，64，32）
  
  在最後一個合併階段，使用只使用3x3的卷積核產生合併階段最終的feature map，並給輸出層。
輸出層，有若干1×1卷積操作，將32通道的特徵圖投影到 1通道的得分圖 $F_s$ 和多通道幾何圖 $F_g$ 中。幾何輸出可以是RBOX或QUAD。（文末的代碼中只實現了RBOX）
- RBOX 幾何形狀由4個通道的軸對齊邊界框（AABB）R和1個通道旋轉角θ表示。其中4個通道分別表示從像素位置到矩形的頂部，右側，底部，左部的4個距離。
- QUAD 使用8個數字來表示從四邊形的四個角頂點 $\{p_i|i∈\{1,4,3,4\}\}$ 到像素位置的距離。每一個距離包含兩個數字 $(Δx_i, Δy_i)$ ，因此幾何輸出包含8個通道。

3.Label Generation（標籤生成）

標籤生成流程圖

（a）文本四邊形（黃色虛線）和壓縮四邊形（綠色實線）
（b）文本分數圖（text score map）
（c）RBOX幾何圖生成
（d）每個像素到矩形邊界的4個通道距離
（e）旋轉角度

分數圖（Score Map）的生成
- 分數圖上四邊形的正面積設計爲原始面積的縮小版
- 對於四邊形 $Q = \{p_i|i∈{1,2,3,4}\}$ ，其中 $p_i = \{x_i, y_i\}$ 是四邊形上的頂點，以順時針順序排列。爲了縮小Q，我們首先計算每個頂點 $p_i$ 的參考長度 $r_i$
  $r_i = min(D(p_i, p_{(i mod 4) + 1}),D(p_i, p_{((i + 2) mod 4) + 1}))$
  此處 $D(p_i, p_j)$ 是 $p_i$ 和 $p_j$ 的 L2 距離
  
  我們首先縮小四邊形的兩個較長邊，然後縮短兩個較短邊。對於每對兩個相對的邊，我們通過比較它們的長度的平均值來確定“更長”的對。對於每個邊 $<p_i,p_{(i mod 4)+1}>$ ，我們通過將其兩個端點沿邊緣向內移動 $0.3r_i$ 和 $0.3r_{(i mod 4)+1}$ 來縮小它。
幾何圖（Geometry Map）的生成

對於那些文本區域以QUAD樣式註釋的數據集（例如，ICDAR 2015），首先生成一個旋轉矩形，用最小的面積覆蓋區域。然後對於每個具有正分數的像素，我們計算它到文本框的4個邊界的距離，並將它們放到RBOX ground truth 的 4 個通道中。對於QUAD ground truth，8通道幾何圖中具有正分數的每個像素的值是其從四邊形的4個頂點的座標偏移。

4. Loss Functions（損失函數）

$L = L_s + \lambda_gL_g$

$L_s$ 代表分數損失， $L_g$ 代表幾何的損失， $\lambda_s代表兩個損失的重要性$ ，在論文中，設置爲1

1. Loss for Score Map ( $L_s$ )

類平衡交叉熵（class-balanced cross-entropy）:用於解決類別不平衡訓練，避免通過平衡採樣和硬負挖掘解決目標物體的不平衡分佈，簡化訓練過程

$L_s = balanced-xent(\hat{Y},Y^*) = -\beta{Y^*}log\hat{Y} - (1-\beta)(1-Y^*)log(1-\hat{Y})$
這裏 $\hat{Y}$ 是score map 的預測值， $Y^*$ 是Ground Truth。參數 $\beta$ 是正樣本和負樣本的平衡因子：
$\beta = 1 - \frac{\sum_{y^*\in Y^*}y^*}{|Y^*|}$
2. Loss for Geometries ( $L_g$ )

文本在自然場景中的尺寸變化極大。直接使用L1或者L2損失去迴歸文本區域將導致損失偏差朝更大更長．因此論文中採用IoU損失在 RBOX 迴歸的 AABB 部分，尺度歸一化的 smoothed-L1 損失在 QUAD 迴歸，來保證幾何形狀的迴歸損失是尺度不變的

RBOX

交併比損失
$L_{AABB} = -log IoU(\hat{R}, R^*) = -log \frac{|\hat{R}\cap R^*|}{|\hat{R}\cup R^*|}$
$\hat{R}$ 代表AABB四邊形的預測， $R^*$ 是對應的Ground Truth， $|\hat{R}\cap R^*|$ 的寬和高是：
$w_i = min(\hat{d_2}, d_2^*) + min(\hat{d_4}, d_4^*)\\ h_i = min(\hat{d_1}, d_1^*) + min(\hat{d_3}, d_3^*)$
$d_1$ , $d_2$ , $d_3$ , $d_4$ 代表從一個像素到它對應矩形的頂部，右邊，底部，左邊的距離，相交的面積爲：
$|\hat{R} \cup R^*| = |\hat{R}| + |R^*| - |\hat{R} \cap R^*|$
接下來，旋轉角的損失計算：
$L_\theta (\hat{\theta}, \theta^*) = 1 - cos(\hat{\theta} - \theta^*)$
$\hat{\theta}$ 是預測的旋轉角， $\theta^*$ 是Ground Truth。最後，總體損失爲AABB損失和旋轉角損失的加權和：
$L_g = L_{AABB} + \lambda_\theta L_\theta$
論文中 $\lambda_\theta$ 設置爲10。
QUAD

添加歸一化的 Smoothed-L1
$C_Q = \{x_1, y_1, x_2, y_2, ..., x_4, y_4\}$
損失值：
$L_g = L_{QUAD} (\hat{Q}, Q^*) = min_{\tilde{Q} \in P_{Q^*}} \sum_{c_i \in C_Q\\ \tilde{c_i} \in C_{\tilde{Q}}} \frac{smoothed_{L1}(c_i - \tilde{c_i})}{8 × N_{Q^*}}$
其中歸一化項 $N_ {Q^*}$ 是四邊形的短邊長度，由下式給出
$N_{Q^*} = min_{i=1}^4 D(p_i, p_{(i mod 4) + 1})$
$P_Q$ 是具有不同頂點排序的 $Q^*$ 的所有等效四邊形的集合。由於公共訓練數據集中的四邊形標註不一致，因此需要這種排序排列。

5. Locality-Aware NMS（局部感知NMS）

由於本文產生的幾何體數量加大，使用普通的NMS時間複雜度太高（ $O(n^2)$ ），針對這個，提出了基於行合併幾何體的方法（加權平均）。

假設來自鄰近像素的幾何形狀傾向於高度相關，就逐行合併幾何，並且在同一行中合併幾何形狀時，我們將迭代地合併當前遇到的幾何與最後合併的幾何。這種改進的技術在最佳場景1中以 $O(n)$ 運行。即使最壞的情況與簡單的情況相同，只要假設成立，算法在實踐中運行得足夠快。

論文中給出的檢測效果圖：

總結

EAST由於感受野不夠大，所以對較長文本行檢測效果不是太好，比較適合短文本行檢測。

CTPN由於LSTM的存在，對長文字的檢測效果比EAST好，但是對於傾斜的文本行檢測效果不太好。

參考文章及代碼

EAST論文：https://arxiv.org/abs/1704.03155

EAST代碼：https://github.com/argman/EAST

EAST（An Efficient and Accurate Scene Text Detector）論文閱讀筆記

文章目錄
@[toc]
貢獻
方法
1. Pipeline
2.Network Design（網絡設計）
3.Label Generation（標籤生成）
4. Loss Functions（損失函數）
5. Locality-Aware NMS（局部感知NMS）
總結
參考文章及代碼

文章目錄

貢獻

方法

1. Pipeline

2.Network Design（網絡設計）

3.Label Generation（標籤生成）

4. Loss Functions（損失函數）

5. Locality-Aware NMS（局部感知NMS）

總結

參考文章及代碼

OpenCV--Python 繪製矩形，繪製文本，獲取文本大小【rectangle()，getTextSize()，putText()】

ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network 自適應 Bezier 曲線網絡實時場景文本識別

OpenCV--Python 圖像平滑之中值平滑、雙邊濾波、聯合雙邊濾波、導向濾波

PSENet：Shape Robust Text Detection with Progressive Scale Expansion Network ---- 論文翻譯

PSENet：Shape Robust Text Detection with Progressive Scale Expansion Network ---- 論文閱讀筆記

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

EAST（An Efficient and Accurate Scene Text Detector）論文閱讀筆記

文章目錄@[toc]貢獻方法1. Pipeline2.Network Design（網絡設計）3.Label Generation（標籤生成）4. Loss Functions（損失函數）5. Locality-Aware NMS（局部感知NMS）總結參考文章及代碼

文章目錄

貢獻

方法

1. Pipeline

2.Network Design（網絡設計）

3.Label Generation（標籤生成）

4. Loss Functions（損失函數）

5. Locality-Aware NMS（局部感知NMS）

總結

參考文章及代碼

文章目錄
@[toc]
貢獻
方法
1. Pipeline
2.Network Design（網絡設計）
3.Label Generation（標籤生成）
4. Loss Functions（損失函數）
5. Locality-Aware NMS（局部感知NMS）
總結
參考文章及代碼