faster rcnn源碼解讀總結

轉載自:faster rcnn源碼解讀總結 - 野孩子的專欄 - 博客頻道 - CSDN.NET
http://blog.csdn.net/u010668907/article/details/51946021


1.初始數據通過imdb類的操作放在它的屬性roidb裏。

2.roidb只是一個字典,可以拿出來當做一個單獨的字典,脫離imdb

3.roi_data_layer下的layer就是input-dataForward中加載數據並控制一次一張圖片

的數據進入網絡。送到rpn-data中三組數據:

  gt_boxes :大小(一張圖片xmlbox個數, 5);一張圖中box的座標以及類別

  data : 大小(1,3,,寬);一張圖的數據

  im_info: 大小(1, 3); (高下面提到的比例)

圖片的大小與原圖不同,每張圖的高或寬被rescale600,另一邊會按照相同的比例rescale(代碼出處未找到,且不懂這樣的原因??????)

4.`AnchorTargetLayer就是rpn-data.計算anchors,以及anchors是否合理(大小,overlap),並根據每個anchorgt_box的重疊度判斷labelsanchors大小是卷積網絡過來數據的高寬再乘9個(即,一個點有9個).最後產生四組數據(設k=len(anchors)):

  labels:大小(k, 1); 前景=1,背景=0, 否則=-1

  rpn_bbox_targets: 大小(k, 4)

  bbox_inside_weights: 大小(k, 4;有前景=1,否則爲0

  bbox_outside_weights: 大小(k, 4); 有前景或背景=1/(前景+背景),否則爲0

發佈了85 篇原創文章 · 獲贊 519 · 訪問量 183萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章