east論文閱讀筆記

EAST( Efficient and Accurate Scene Text Detector)

簡潔的pipline

FCN+nms

 

 前面的特徵提取以及深淺層融合較容易理解,類unet結構

 

網絡輸出一個score map 和 幾何形狀(可選四邊形加角度RBOX和四座標QUAD)

score map是shrunk的GT(1維)

RBOX輸出是每個像素對於四個邊的距離(4維)+ 角度

QUAD是對於四個座標的偏移(8維)

score map用於後續nms

 

標籤生成:

score map部分,把原始gt標籤縮放0.3,得到一個核區域,positive area粗略地設定爲核區域內的元素, 

幾何形狀部分,RBOX對於positive area內的像素預測每個點對於四個邊的距離;

QUAD對於positive area內的元素預測每個像素對於四個座標的offset.

 

loss計算

 

 兩部分,一個score map的loss,一個幾何體的loss

score map  的loss:

爲了提高速度,避免以往目標檢測常用的平衡正負樣本難易樣本的策略,只使用類平衡交叉熵(實際使用dice loss的更多,收斂快)

幾何體的loss:

(特殊性,文本的尺度變化比較大,直接用l1 loss會使得loss的偏差朝更大更長髮展,爲了兼具預測大尺度和小尺度的文本框,故採用Iou loss和尺度歸一化的smooth l1 loss)

RBOX採用iou loss

QUAD採用尺度歸一化的smooth l1 loss

 

locality-aware NMS(局部感知)

NMS之前還進行了行幾何體的合併,基於臨近的像素預測的幾何體高度相關的假設,加權合併可以減小計算壓力,按照score加權合併幾何體,之後再進行普通的NMS

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章