RetinaNet

one stage 精度不高,一個主要原因是正負樣本的不平衡,以YOLO爲例,每個grid cell有5個預測,本來正負樣本的數量就有差距,再相當於進行5倍放大後,這種數量上的差異更會被放大。

文中提出新的分類損失函數Focal loss,該損失函數通過抑制那些容易分類樣本的權重,將注意力集中在那些難以區分的樣本上,有效控制正負樣本比例,防止失衡現象。

其中用於控制正負樣本的數量失衡,用於控制簡單/難區分樣本數量失衡。

模型採用FPN,P3到P7,其中P7能夠增加對大物體的檢測。

在FPN的P3-P7中分別設置32x32-512x512尺寸不等的anchor,比例設置爲{1:2, 1:1, 2:1}。每一層一共有9個anchor,不同層能覆蓋的size範圍爲32-813。對每一個anchor,都對應一個K維的one-hot向量(K是類別數)和4維的位置迴歸向量。

同時分類子網對A個anchor,每個anchor中的K個類別,都預測一個存在概率。如下圖所示,對於FPN的每一層輸出,對分類子網來說,加上四層3x3x256卷積的FCN網絡,最後一層的卷積稍有不同,用3x3xKA,最後一層維度變爲KA表示,對於每個anchor,都是一個K維向量,表示每一類的概率,然後因爲one-hot屬性,選取概率得分最高的設爲1,其餘k-1爲歸0。傳統的RPN在分類子網用的是1x1x18,只有一層,而在RetinaNet中,用的是更深的卷積,總共有5層,實驗證明,這種卷積層的加深,對結果有幫助。與分類子網並行,對每一層FPN輸出接上一個位置迴歸子網,該子網本質也是FCN網絡,預測的是anchor和它對應的一個GT位置的偏移量。首先也是4層256維卷積,最後一層是4A維度,即對每一個anchor,迴歸一個(x,y,w,h)四維向量。注意,此時的位置迴歸是類別無關的。分類和迴歸子網雖然是相似的結構,但是參數是不共享的

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章