Unsupervised Hard Example Mining from Videos for Improved Object Detection論文精讀

解釋一下什麼叫HEM(Hard Example Mining困難樣本挖掘):我們以2D檢測爲例,有些樣本很容易學習,有些樣本則很困難被網絡學習,那麼如果我們的模型只學習會了簡單的目標,那精度也總會受到限制。因此,對於finetune階段來說,困難樣本有助於我們的模型去’突破‘,讓他見識更廣闊的世界。

優點:
In the context of class imbalance in training object detectors, online hard example mining (OHEM) [46] and the focal loss [33] were designed to emphasize hard examples
這篇文章還有個很重要的點就是無監督,文中也說到了和focal loss,ohem方法都不同,就是我不需要標籤,該方法的效果也比較好,因此可以研究一下。


核心思想:

主要是用了一種追蹤的思想,首先視頻的幀是連續的,因此不會有目標突然地消失,當我們檢測到第f幀時,我們會根據前後各五幀的檢測目標進行聯合的判斷,如果某一幀漏檢,或者誤檢了,那麼漏檢的這一幀就算就當做hard example。


我們舉個例子:第一行的中間的紅框是無緣無故出現的,前後兩幀都沒檢測到這個樣本,所以該檢測是獨立的,就判定爲困難負樣本FP。第二行也是一樣的道理。
在這裏插入圖片描述

相關工作:主要是兩個方面:負樣本的質量和半監督學習。
1.滑動窗口滑過的背景比前景多很多,所以訓練和檢測會出現大量負樣本,數量大到有時分類器只給出false就會得到不錯的結果。很多現有方法(例如OHEM和focal loss)都是在標註數據的基礎上進行改進。
2.簡要地舉了半監督學習的一個方法(不重要)

本文的詳細方法

1.收集視頻
2.預訓練的faster-rcnn推理進行檢測bbox。
3.最關鍵的一點:
首先設置檢測置信度爲0.8,很多結果被過濾,當推理到第X幀,取前五幀與後五幀作爲相鄰幀,作爲模板匹配,進行聯繫判斷。策略就是:對bounding box擴大100個像素以得到區域,在前後五幀中對這個區域使用歸一化交叉相關(normalized cross correlation,NCC)搜索其最佳匹配(NCC閾值設置爲0.5)。如果前後五幀搜索得到的結果與第X幀預測結果IoU小於0.2,則認爲此檢測結果是detector flicker,判斷爲困難負樣本。
如果前後幀一致(沒具體說是IOU大於多少,不過肯定大於0.2了)則認爲是僞正pseudo-positive。

. For the purpose of creating the re-training set, we kept only those frames that had at least one pseudo-positive detection in addition to one or more hard negatives.
至少要保留一個hard negative 和一個pseudo-positive作爲訓練集進行finetune。

黃色爲faster-rcnn檢測的高閾值的目標,紅色當然也是,前後幀綠色的虛線框表示這個範圍,藍色是追蹤的框,前後幀並沒有與紅色框相匹配的樣本,所以是hard negatives.。
在這裏插入圖片描述

hard-negative樣本解釋了,還有一種叫hard-positive樣本。如圖所示,漏檢的正樣本就是hard-positive。
在這裏插入圖片描述

————————————————————————————————
下面實驗就不多說了,我也沒仔細看,但是提升還是有的。

**

結論:

**
本文的trick利用了視頻連續性來收集樣本,可以在數據有限的前提下大大提高模型對“硬例”的檢測效果。目前來看,有一定的工程應用價值。

參考博客:
https://blog.csdn.net/fish_like_apple/article/details/82856012
https://blog.csdn.net/leviopku/article/details/99564927

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章