CVPR19 基於圖卷積網絡的多標籤圖像識別模型 論文筆記

筆記

曠視研究院的研究員提出瞭如下模型,用於圖像的多標籤分類.
在這裏插入圖片描述
該模型與一般模型不一樣的一點是,它的分類器是生成的,因此它有一個專門生成分類器的子網絡.

網絡主要由兩部分構成

  1. 特徵表示子網絡,該網絡由ResNet-101構成,即藍色框圈出的部分.
  2. 分類器生成子網絡,該網絡由3個GCN層串聯組合而成,即紅色框組成部分.

動機

  1. 基於標籤的共現模式,曠視研究員設計了一個全新的標籤相關係數矩陣,可顯式地用 GCN建模標籤相關性,讓節點的特徵在更新時也能從相關聯的節點(標籤)吸收信息。
  2. 由於從詞嵌入向量到分類器的映射參數在所有類別中是共享的,所以習得的分類器能夠在詞嵌入空間中(語義相關的概念在詞嵌入空間中彼此臨近)保留較弱的語義結構。與此同時,對於可以對標籤依賴性進行隱式建模的分類器函數,所有分類器的梯度都會對它產生影響。

GCN層

每個標籤可以看做是一個特徵向量.
在第一層的時候,標籤的特徵向量是dd維度的,剛好是一個詞嵌入向量.
在第二層的時候,標籤的特徵向量是dd'維度的,是經過了一個轉換矩陣W2W^2的映射.
在第三層的時候,標籤的特徵向量是DD維度的,也是經過了一個轉換矩陣W3W^3的映射,映射完之後,每個標籤的特徵向量維度剛好和ResNet101抽取到的特徵維度相同了,因此可以作爲該標籤的分類器了.
這對應第2個動機.

至此還未用到標籤間的拓撲圖結構,也就沒有用到標籤間的共現關係,因此他們設計了一個共現矩陣AA,用於引導信息在標籤間的傳遞.
ARnnA \in R^{n*n},其中nn是標籤的數量.
矩陣是一個先驗矩陣,不需要被學習.
這就對應了第1個動機

因此得到了GCN變換公式:

HlRnd,WlRdd,ARnnH^l \in R^{n*d},W^l\in R^{d*d'},A\in R^{n*n}

Hl+1=h(AHlWl)H^{l+1}=h(AH^{l}W^{l})

AA的設計

在這裏插入圖片描述
如圖所示,一個很樸素的想法,就是計算一對標籤的條件概率作爲他們的相關係數.
這樣有兩個壞處

  1. 測試和訓練過程中的條件概率可能會不一樣.
  2. 存在噪音問題導,致長尾分佈.

作如下改進: 將矩陣進行二值化,設置一個閾值τ[0,1]\tau \in [0,1]

Aij=[Pijτ]A_{ij}=[P_{ij} \ge \tau]

二值化之後解決了上述兩個問題,然而也會引入新的問題,即過度平滑問題.

因此他們提出了二次加權的方法:

在這裏插入圖片描述
pp是一個預設的超參數.
p1p \rightarrow 1的時候,節點自身的特徵往往不會被考慮.
p0p \rightarrow 0的時候,節點相鄰點的特徵往往不會被考慮.

細節

當一個標籤包含多個單詞的時候,將所有單詞的embedding取平均.

實驗結果

在這裏插入圖片描述

可視化


通過對分類器的可視化,我們可以發現,確實使用GCN可以學習到吧標間之間的內在關聯性.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章