曠世:高效準確的文字檢測

EAST文字檢測網絡

可以以很小的計算量,加在其他backbone之後改善檢測效果
主講人趙明明在這裏插入圖片描述
具體,性能和準確率
在這裏插入圖片描述
fscore 0.757 , fps 16.8 ,
PVANet fps 16.8
channel乘以2倍,fps13.2

在這裏插入圖片描述
FCN+NMS

在這裏插入圖片描述
EAST 詳細 pipelline
在這裏插入圖片描述

feature merging

在這裏插入圖片描述
conv stage 包括conv pooling等、
多層特徵的融合,有小目標和大目標

在這裏插入圖片描述
假設
score map 上的[i][j]=1
Sx1 map[i][j] = -3
Sx2 map[i][j] = -2
Sx3 map[i][j] = 6
在這裏插入圖片描述
從 score map上位置 按照Sx1 , Sx2分別向xy移動,得到一個頂點
圖中是4個feature map , 一共9個
圖上每個圖都取[i][j]位置,代表一個框
第一個是置信度,另外八個點是位移大小
以當前點[i][j]爲基準

在這裏插入圖片描述

局部感知NMS

直接NMS計算量太大,所以先局部合併,降低框的個數,最後再用標準NMS
在這裏插入圖片描述
整張圖m/4 , n/4 , 每個點代表一個四邊形
先看前兩個四邊形IOU 若>0.5 則合併
方法:加權融合(而不是NMS那種捨棄一個)
S x B1 + S x B2 (比較穩定而不會抖動)
前兩個框和第三個框做同樣步驟,看IOU
新框Score = S1+S2,有可能大於1
四個座標分別計算
細節:1,2融合,3沒有融合,4的時候不和1,2計算了

標準NMS

standard NMS

Loss function

L = Ls + λ Lg
score map loss , geometry map loss(那八個偏移部分的loss),
λ 默認1
LS是交叉熵loss
Y星爲0時,就是後面部分
Y星爲1時就是前面部分
β是類平衡因子,Y星是score map , m/4,n/4大小的圖片
大概是0.9,因爲負例部分多

正例比重乘到負例loss
負例乘到正例loss
這是類平衡交叉熵loss

loss for Geometry

由於有兩個min的操作,因而與標註順序無關
通過最小邊來優化(選定最小邊是人工指定的一個邊)

Training

標註圖片如何生成GT

  1. 四邊形1(即score map,是原圖4分之一大小)內部縮小三分之一得到四邊形2
  2. 四邊形2內部取1,外部取0
  3. 縮小爲原來的4分支1
    Sx1的來源:
    原圖,某個點[i][j] , 對Sx1賦值:縮小框到該點的位移值,x方向的偏移量

對Sx2同上,是y方向的位移偏移值
在這裏插入圖片描述
四邊框2縮小框是經驗得來的,小框一般是落在文字上面的,感受野在文字區域裏。如果用邊界,感受野有一部分在文字外面。
大框小框之間的部分被mask,不參與計算
shrink縮小之後確實更容易收斂
9個feature map 一個是score 另外8個map 分別預測8 個偏移值

在這裏插入圖片描述
x1,x2,x3,x4,x5,x6,x7,x8分別是對四個邊界分別取x,y方向偏移

EAST本身對計算量增加很小,可以使用不同規模backbone
不同層Ground Truth怎麼處理:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章