CVPR19 基於圖卷積網絡的多標籤圖像識別模型論文筆記

原創

2019-05-07 11:30

筆記

曠視研究院的研究員提出瞭如下模型,用於圖像的多標籤分類.

該模型與一般模型不一樣的一點是,它的分類器是生成的,因此它有一個專門生成分類器的子網絡.

網絡主要由兩部分構成

特徵表示子網絡,該網絡由ResNet-101構成,即藍色框圈出的部分.
分類器生成子網絡,該網絡由3個GCN層串聯組合而成,即紅色框組成部分.

動機

基於標籤的共現模式，曠視研究員設計了一個全新的標籤相關係數矩陣，可顯式地用 GCN建模標籤相關性，讓節點的特徵在更新時也能從相關聯的節點（標籤）吸收信息。
由於從詞嵌入向量到分類器的映射參數在所有類別中是共享的，所以習得的分類器能夠在詞嵌入空間中（語義相關的概念在詞嵌入空間中彼此臨近）保留較弱的語義結構。與此同時，對於可以對標籤依賴性進行隱式建模的分類器函數，所有分類器的梯度都會對它產生影響。

GCN層

每個標籤可以看做是一個特徵向量.
在第一層的時候,標籤的特徵向量是 $d$ 維度的,剛好是一個詞嵌入向量.
在第二層的時候,標籤的特徵向量是 $d'$ 維度的,是經過了一個轉換矩陣 $W^2$ 的映射.
在第三層的時候,標籤的特徵向量是 $D$ 維度的,也是經過了一個轉換矩陣 $W^3$ 的映射,映射完之後,每個標籤的特徵向量維度剛好和ResNet101抽取到的特徵維度相同了,因此可以作爲該標籤的分類器了.
這對應第2個動機.

至此還未用到標籤間的拓撲圖結構,也就沒有用到標籤間的共現關係,因此他們設計了一個共現矩陣 $A$ ,用於引導信息在標籤間的傳遞.
$A \in R^{n*n}$ ,其中 $n$ 是標籤的數量.
矩陣是一個先驗矩陣,不需要被學習.
這就對應了第1個動機

因此得到了GCN變換公式:

$H^l \in R^{n*d},W^l\in R^{d*d'},A\in R^{n*n}$

$H^{l+1}=h(AH^{l}W^{l})$

$A$ 的設計

如圖所示,一個很樸素的想法,就是計算一對標籤的條件概率作爲他們的相關係數.
這樣有兩個壞處

測試和訓練過程中的條件概率可能會不一樣.
存在噪音問題導,致長尾分佈.

作如下改進: 將矩陣進行二值化,設置一個閾值 $\tau \in [0,1]$

$A_{ij}=[P_{ij} \ge \tau]$

二值化之後解決了上述兩個問題,然而也會引入新的問題,即過度平滑問題.

因此他們提出了二次加權的方法:

$p$ 是一個預設的超參數.
當 $p \rightarrow 1$ 的時候,節點自身的特徵往往不會被考慮.
當 $p \rightarrow 0$ 的時候,節點相鄰點的特徵往往不會被考慮.

細節

當一個標籤包含多個單詞的時候,將所有單詞的embedding取平均.

實驗結果

可視化

通過對分類器的可視化,我們可以發現,確實使用GCN可以學習到吧標間之間的內在關聯性.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

CVPR19 基於圖卷積網絡的多標籤圖像識別模型論文筆記

筆記

網絡主要由兩部分構成

動機

GCN層

$A$ 的設計

細節

實驗結果

可視化

圖像處理作業第7次

圖像處理作業4

圖像處理作業第五次

NOIP2019 Emiya家今天的飯

圖像處理作業第8次

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

CVPR19 基於圖卷積網絡的多標籤圖像識別模型 論文筆記

筆記

網絡主要由兩部分構成

動機

GCN層

AAA的設計

細節

實驗結果

可視化

CVPR19 基於圖卷積網絡的多標籤圖像識別模型論文筆記

$A$ 的設計