EAST( Efficient and Accurate Scene Text Detector)
簡潔的pipline
FCN+nms
前面的特徵提取以及深淺層融合較容易理解,類unet結構
網絡輸出一個score map 和 幾何形狀(可選四邊形加角度RBOX和四座標QUAD)
score map是shrunk的GT(1維)
RBOX輸出是每個像素對於四個邊的距離(4維)+ 角度
QUAD是對於四個座標的偏移(8維)
score map用於後續nms
標籤生成:
score map部分,把原始gt標籤縮放0.3,得到一個核區域,positive area粗略地設定爲核區域內的元素,
幾何形狀部分,RBOX對於positive area內的像素預測每個點對於四個邊的距離;
QUAD對於positive area內的元素預測每個像素對於四個座標的offset.
loss計算
兩部分,一個score map的loss,一個幾何體的loss
score map 的loss:
爲了提高速度,避免以往目標檢測常用的平衡正負樣本難易樣本的策略,只使用類平衡交叉熵(實際使用dice loss的更多,收斂快)
幾何體的loss:
(特殊性,文本的尺度變化比較大,直接用l1 loss會使得loss的偏差朝更大更長髮展,爲了兼具預測大尺度和小尺度的文本框,故採用Iou loss和尺度歸一化的smooth l1 loss)
RBOX採用iou loss
QUAD採用尺度歸一化的smooth l1 loss
locality-aware NMS(局部感知)
NMS之前還進行了行幾何體的合併,基於臨近的像素預測的幾何體高度相關的假設,加權合併可以減小計算壓力,按照score加權合併幾何體,之後再進行普通的NMS