Large-Scale Long-Tailed Recognition in an OpenWorld

Open Long-Tailed Recognition(OLTR):從自然分佈的數據中學習並在包括頭、尾和開放類的平衡測試集上優化分類精度。也就是對三個問題的綜合

  1. imbalanced classification
  2. few-shot learning
  3. open-set recognition.

論文針對的問題:
在這裏插入圖片描述
OLTR不僅要在封閉環境中處理不平衡分類和few-shot learning問題,還要處理open-set recognition.現有的分類方法只集中在某一方面,當考慮到整體時,性能就會大大下降。

challenge:tail recognition robustness and open-set sensitivity

解決思路:

  1. 在頭尾類之間共享視覺知識來提高識別的魯棒性。
  2. 減少tail和open類之間的混淆來提高識別靈敏度。

貢獻:

  1. 定義OLTR任務
  2. 提出了一種基於動態元嵌入的OLTR算法
    1. 通過將頭尾嵌入的視覺關聯起來處理尾部識別的健壯性,
    2. 通過視覺記憶動態校準來處理開放識別的敏感性。
  3. 組織了三個大型OLTR數據集:
    1. 以對象爲中心的ImageNet
    2. 以場景爲中心的MIT Places
    3. 以人臉爲中心的MS1M。

dynamic meta-embedding

  1. direct feature,從輸入圖像中計算特徵,對尾部數據缺乏足夠的監督。
  2. memory feature,視覺記憶相關的誘發特徵。從直接特性中檢索內存激活的summary,並將其合併到一個適合tail類元嵌入中。

model

在這裏插入圖片描述

  1. dynamic meta-embedding(vdirectv^{direct}):在頭尾類之間傳遞知識
  2. modulated attention(vmemoryv^{memory}):在頭尾之間保持判別
  3. meta embedding(vmetav^{meta})

vmemory=oTM:=i=1Koici v^{memory} = o^TM := \sum_{i=1}^{K}{o_ic_i}
vmeta=(1/γ)(vdirect+evmemory) v_{meta}=(1/\gamma)\cdot(v^{direct}+e\otimes v^memory)
γ:=reachability(vdirect,M)=minivdirectci2 \gamma := reachability(v^{direct},M) = min_i{||v^{direct}-c_i||_2}

  • Neighborhood Sampling 怎樣採樣??
  • centroids 是怎樣計算的??
  • coefficients hallucinated???指的是什麼
  • lightweight neural network 又指的是什麼?
  • γ\gamma 作用???
  • self-attention?
  • modulated attention
  • Cosine Classifier

在數據集加載的時候:

  1. test 模式:會把test 和 open加載進去
  2. train模式:如果有sampler_dic,會按照sampler 方式採樣,如果沒有就按照系統,對於val的話,transform是不一樣的

MA:(modulatedatt)
SA:(spatial_att)

view+permute
view+permute
view
matmul
matmul
softmax
matmul
matmul
permute+view+conv2d
view+Linear+softmax+view
multiply
multiply
add
輸入X
g_x:conv2d
theta_x:conv2d
phi_x:conv2d
map_t_p
mask_t_p
map_
mask
spatial_att
final

centroids的計算:輸入x 計算feature,相同類別的feature累加求平均值

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章