曠世：高效準確的文字檢測

EAST文字檢測網絡

可以以很小的計算量，加在其他backbone之後改善檢測效果
主講人趙明明
具體，性能和準確率

fscore 0.757 , fps 16.8 ,
PVANet fps 16.8
channel乘以2倍，fps13.2

FCN+NMS

EAST 詳細 pipelline

feature merging

conv stage 包括conv pooling等、
多層特徵的融合，有小目標和大目標

假設
score map 上的[i][j]=1
Sx1 map[i][j] = -3
Sx2 map[i][j] = -2
Sx3 map[i][j] = 6

從 score map上位置按照Sx1 , Sx2分別向xy移動，得到一個頂點
圖中是4個feature map ，一共9個
圖上每個圖都取[i][j]位置，代表一個框
第一個是置信度，另外八個點是位移大小
以當前點[i][j]爲基準

局部感知NMS

直接NMS計算量太大，所以先局部合併，降低框的個數，最後再用標準NMS

整張圖m/4 , n/4 , 每個點代表一個四邊形
先看前兩個四邊形IOU 若>0.5 則合併
方法：加權融合（而不是NMS那種捨棄一個）
S x B1 + S x B2 （比較穩定而不會抖動）
前兩個框和第三個框做同樣步驟，看IOU
新框Score = S1+S2，有可能大於1
四個座標分別計算
細節：1,2融合，3沒有融合，4的時候不和1,2計算了

標準NMS

standard NMS

Loss function

L = Ls + λ Lg
score map loss , geometry map loss(那八個偏移部分的loss),
λ 默認1
LS是交叉熵loss
Y星爲0時，就是後面部分
Y星爲1時就是前面部分
β是類平衡因子，Y星是score map ， m/4,n/4大小的圖片
大概是0.9，因爲負例部分多

正例比重乘到負例loss
負例乘到正例loss
這是類平衡交叉熵loss

loss for Geometry

由於有兩個min的操作，因而與標註順序無關
通過最小邊來優化（選定最小邊是人工指定的一個邊）

Training

標註圖片如何生成GT

四邊形1（即score map，是原圖4分之一大小）內部縮小三分之一得到四邊形2
四邊形2內部取1，外部取0
縮小爲原來的4分支1
Sx1的來源：
原圖，某個點[i][j] , 對Sx1賦值：縮小框到該點的位移值，x方向的偏移量

對Sx2同上，是y方向的位移偏移值

四邊框2縮小框是經驗得來的,小框一般是落在文字上面的，感受野在文字區域裏。如果用邊界，感受野有一部分在文字外面。
大框小框之間的部分被mask，不參與計算
shrink縮小之後確實更容易收斂
9個feature map 一個是score 另外8個map 分別預測8 個偏移值

x1,x2,x3,x4,x5,x6,x7,x8分別是對四個邊界分別取x,y方向偏移

EAST本身對計算量增加很小，可以使用不同規模backbone
不同層Ground Truth怎麼處理：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

曠世：高效準確的文字檢測

EAST文字檢測網絡

feature merging

局部感知NMS

標準NMS

Loss function

loss for Geometry

Training

標註圖片如何生成GT

聚類有效性分析

擁擠場景多人姿態估計論文梗概及代碼CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark

深度學習中一些時而會忘的概念

多人姿態估計小小的綜述

Faster R-CNN論文翻譯和PPT講解

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結