筆記
曠視研究院的研究員提出瞭如下模型,用於圖像的多標籤分類.
該模型與一般模型不一樣的一點是,它的分類器是生成的,因此它有一個專門生成分類器的子網絡.
網絡主要由兩部分構成
- 特徵表示子網絡,該網絡由ResNet-101構成,即藍色框圈出的部分.
- 分類器生成子網絡,該網絡由3個GCN層串聯組合而成,即紅色框組成部分.
動機
- 基於標籤的共現模式,曠視研究員設計了一個全新的標籤相關係數矩陣,可顯式地用 GCN建模標籤相關性,讓節點的特徵在更新時也能從相關聯的節點(標籤)吸收信息。
- 由於從詞嵌入向量到分類器的映射參數在所有類別中是共享的,所以習得的分類器能夠在詞嵌入空間中(語義相關的概念在詞嵌入空間中彼此臨近)保留較弱的語義結構。與此同時,對於可以對標籤依賴性進行隱式建模的分類器函數,所有分類器的梯度都會對它產生影響。
GCN層
每個標籤可以看做是一個特徵向量.
在第一層的時候,標籤的特徵向量是維度的,剛好是一個詞嵌入向量.
在第二層的時候,標籤的特徵向量是維度的,是經過了一個轉換矩陣的映射.
在第三層的時候,標籤的特徵向量是維度的,也是經過了一個轉換矩陣的映射,映射完之後,每個標籤的特徵向量維度剛好和ResNet101抽取到的特徵維度相同了,因此可以作爲該標籤的分類器了.
這對應第2個動機.
至此還未用到標籤間的拓撲圖結構,也就沒有用到標籤間的共現關係,因此他們設計了一個共現矩陣,用於引導信息在標籤間的傳遞.
,其中是標籤的數量.
矩陣是一個先驗矩陣,不需要被學習.
這就對應了第1個動機
因此得到了GCN變換公式:
的設計
如圖所示,一個很樸素的想法,就是計算一對標籤的條件概率作爲他們的相關係數.
這樣有兩個壞處
- 測試和訓練過程中的條件概率可能會不一樣.
- 存在噪音問題導,致長尾分佈.
作如下改進: 將矩陣進行二值化,設置一個閾值
二值化之後解決了上述兩個問題,然而也會引入新的問題,即過度平滑問題.
因此他們提出了二次加權的方法:
是一個預設的超參數.
當的時候,節點自身的特徵往往不會被考慮.
當的時候,節點相鄰點的特徵往往不會被考慮.
細節
當一個標籤包含多個單詞的時候,將所有單詞的embedding取平均.
實驗結果
可視化
通過對分類器的可視化,我們可以發現,確實使用GCN可以學習到吧標間之間的內在關聯性.