Zero-Shot Object Detection
創新點
1)Baseline ZSD Model 提出的基準模型
2)Background-Aware Zero-Shot Detection 對於背景類的兩種處理方法
3)Densely Sampled Embedding Space 對樣本數據的擴充
提出的方法
1、Baseline ZSD Model
從整張圖片上提取obejctness proposal regions.將這些regions wrap到224*224大小,經過特徵提取backbone (論文中使用的Inception-Resnet v2)獲得的圖像特徵。將這些圖像特徵映射到300維的語義特徵空間。通過相似性比較策略獲得預測的類別。(根據作者的描述,這裏用的方法應該是SAE方法)
是檢測出的目標候選框, 是映射矩陣,用於提取深度特徵。
對於Loss:
KaTeX parse error: Expected '}', got '\cal' at position 2: {\̲c̲a̲l̲ ̲L}(b_i, y_i, \t…
預測:
KaTeX parse error: Expected '}', got '\cal' at position 40: …g\max}_{j \in {\̲c̲a̲l̲ ̲U}} S_{ij}
2、Background-Aware Zero-Shot Detection
- Statically Assigned Background (SB) Based Zero-Shot Detection
背景類,對應一個固定的標籤向量[1, …, 0]
- Latent Assignment Based (LAB) Zero-Shot Detection
因爲背景可能包含未知類別猜想隱含數,基於觀測的數據和猜測的隱含數一起最大化似然函數。之後重複這個過程,這就是EM的思路。作者的做法是:構建了一個不包含seen和unseen類別的單詞列表C,先使用baseline ZSD方法預測一些背景的類別,給部分背景框加上標籤後添加到數據集中進行下一輪的訓練。這樣重複五次得到最終的結果。
3、Densely Sampled Embedding Space
爲了增加標籤的多樣性,將OI數據集中未知類去掉之後加到MSCOCO和VG數據集中,增加已知類別的種類,一般來說這樣在做特徵空間和語義空間之間的映射的時候更加準確一些。
實驗
1、評估方法
1) 定性評估
2) 定量評估
這個就和 一般的目標檢測方法一致
總結
需要解決的問題
1)識別結果的分級關係,比如把貓識別成了動物。你不能完全說這個是錯的。
2)新目標的bounding box迴歸需要更加精確。
更多關於編程和機器學習資料請關注FlyAI公衆號。