RetinaNet

原創

DL_fan

2019-06-27 11:33

one stage 精度不高，一個主要原因是正負樣本的不平衡，以YOLO爲例，每個grid cell有5個預測，本來正負樣本的數量就有差距，再相當於進行5倍放大後，這種數量上的差異更會被放大。

文中提出新的分類損失函數Focal loss，該損失函數通過抑制那些容易分類樣本的權重，將注意力集中在那些難以區分的樣本上，有效控制正負樣本比例，防止失衡現象。

其中用於控制正負樣本的數量失衡，用於控制簡單/難區分樣本數量失衡。

模型採用FPN，P3到P7,其中P7能夠增加對大物體的檢測。

在FPN的P3-P7中分別設置32x32-512x512尺寸不等的anchor，比例設置爲{1:2, 1:1, 2:1}。每一層一共有9個anchor，不同層能覆蓋的size範圍爲32-813。對每一個anchor，都對應一個K維的one-hot向量（K是類別數）和4維的位置迴歸向量。

同時分類子網對A個anchor，每個anchor中的K個類別，都預測一個存在概率。如下圖所示，對於FPN的每一層輸出，對分類子網來說，加上四層3x3x256卷積的FCN網絡，最後一層的卷積稍有不同，用3x3xKA，最後一層維度變爲KA表示，對於每個anchor，都是一個K維向量，表示每一類的概率，然後因爲one-hot屬性，選取概率得分最高的設爲1，其餘k-1爲歸0。傳統的RPN在分類子網用的是1x1x18，只有一層，而在RetinaNet中，用的是更深的卷積，總共有5層，實驗證明，這種卷積層的加深，對結果有幫助。與分類子網並行，對每一層FPN輸出接上一個位置迴歸子網，該子網本質也是FCN網絡，預測的是anchor和它對應的一個GT位置的偏移量。首先也是4層256維卷積，最後一層是4A維度，即對每一個anchor，迴歸一個（x,y,w,h）四維向量。注意，此時的位置迴歸是類別無關的。分類和迴歸子網雖然是相似的結構，但是參數是不共享的。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

RetinaNet

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

將MSRA-TD500標籤轉換成逆時針輸出標籤+labeleme json格式轉四個點的txt

三種計算polygon面積和判斷順逆時針方向的方法

pyecharts地圖使用

ubuntu安裝Redis+安裝mysql(配置遠程登錄)+安裝jdk+安轉nginx+安轉teamviewer+安裝terminator+安裝sublime

yolov3 anchors用kmeans聚類出先驗框+anchor寬高比分析

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結