【論文學習】零樣本學習:Zero-Shot learning(2018CVPR)

1、簡介

見過和沒見過的類別都要提供類別描述信息(比如用戶定義的屬性標註、類別的文本描述、類別名的詞向量等);某些描述信息是各個類別共有的。這些描述信息通常被稱爲輔助信息或語義表徵。

典型 ZSL 方法的一個通用假設是:存在一個共有的嵌入空間,其中有一個映射函數:

定義這個函數的目的是對於見過或沒見過的類別,衡量圖像特徵 φ(x) 和語義表徵 ψ(y) 之間的相容性(compatibility)。W 是所要學習的視覺-語義映射矩陣

 

2、以往工作的缺陷

到目前爲止,映射矩陣 W 的學習(儘管對 ZSL 很重要)的主要推動力是視覺空間和語義空間之間對齊損失的最小化。但是,ZSL 的最終目標是分類未見過的類別。因此,視覺特徵 φ(x) 和語義表徵 ψ(y) 應該可以被區分開以識別不同的目標。不幸的是,這個問題在 ZSL 領域一直都被忽視了,幾乎所有方法都遵循着同一範式:1)通過人工設計或使用預訓練的 CNN 模型來提取圖像特徵;2)使用人類設計的屬性作爲語義表徵。這種範式存在一些缺陷:

第一,圖像特徵 φ(x) 要麼是人工設計的,要麼就是來自預訓練的 CNN 模型,所以對零樣本識別任務而言可能不具有足夠的表徵能力。儘管來自預訓練 CNN 模型的特徵是學習到的,然而卻受限於一個固定的圖像集(比如 ImageNet),這對於特定 ZSL 任務而言並不是最優的。

第二,用戶定義的屬性 ψ(y) 是語義描述型的,但卻並不詳盡,因此限制了其在分類上的鑑別作用。也許在 ZSL 數據集中存在一些預定義屬性沒有反映出來的鑑別性的視覺線索,比如河馬的大嘴巴。另一方面,如圖 1 所示,「大」、「強壯」和「大地」等被標註的屬性是很多目標類別都共有的。這是不同類別之間的知識遷移所需的,尤其是從見過的類別遷移到沒見過的類別時。但是,如果兩個類別(比如豹和虎)之間共有的(用戶定義的)屬性太多,它們在屬性向量空間中將難以區分。

第三,現有 ZSL 方法中的低層面特徵提取和嵌入空間構建是分開處理的,並且通常是獨立進行的。因此,現有研究中很少在統一框架中考慮這兩個組分。

 

3、我們的方法

原則上該框架包含多個圖像尺度,但爲描述清楚,這裏僅給出了有 2 個圖像尺度的情況作爲示例。在每個圖像尺度中,網絡都由三個不同組分構成:

1)圖像特徵網絡(FNet),用於提取圖像表徵;是和網絡的其他部分一起訓練的(其他工作是分開訓練)。

  •           結構:VGG19, the FNet starts from conv1 to fc7; for GoogLeNet, it starts from conv1 to pool5
  •           pre-trained on ImageNet

2)縮放網絡(ZNet),用於定位最具鑑別性(鑑別性指圖片中的目標對象+背景,尤其是用戶定義的屬性)的區域,然後將其放大。

  •           輸入:FNet的最後conv層,(e.g., conv5 4 in VGG19),輸出:目標正方形區域中心的x,y座標和邊長Zs

          

  •           結構:two-stacked fully-connected layers (1024-3) followed by the sigmoid activation function。之後再用雙線性插值將裁減圖片恢復爲原圖大小

3)嵌入網絡(ENet),用於構建視覺信息和語義信息關聯在一起的嵌入空間。亮點在,本文將特徵映射到兩個空間:user-defined attributes (UA) and latent discriminative attributes (LA).

           

               Waug ∈ R^d×2k。we let the first k-dim embedded feature φatt(x) correspond to the UA and the second k-dim being associated with the LA。φ(x) is the d-dim image representation obtained by the FNet。

  •             loss:(xi,xk是同一類,j是另外一類。第二個loss爲意思是triplet loss,可以固定差異度,便於細粒度分類

             

              

總loss:(s1代表圖中第一行,即scale 1)

          

 

4、預測

1)用UA預測:用輸入的投影φatt(x)和提供的標籤a^c(c∈YU)

        

2)用LA預測:

      首先,得到一個LA模型(all samples xi from the seen class s are projected to their LA features and the mean of features are utilized as the LA prototype of class s);

      接着,對一個未知類u,計算和其他類S之間的關係

          

      得到類u的LA模型:

             

     得到類u的預測結果:

             

最後兩者取大:argmax(UA,LA)

 

5、訓練策略

1)用ImageNet初始化FNet,然後再取用某些層

2)用初始化的FNet找最後conv層中activation最高的一個正方形區域(設爲原圖的一半),再用這個區域去預訓練ZNet

3)固定ZNet,訓練FNet和ENet

 

6、Dataset

1)Animals with Attributes (AwA)

       30,475 images, 50 common animals categories

       standard 40/10 zero-shot split

       85 class-level attributes

2)Caltech-UCSD Birds 200-2011 (CUB)

       11,788 images, 200 different birds

        a split of 150/50 for zero-shot learning

        312 class-level attributes

論文參考:Discriminative Learning of Latent Features for Zero-Shot Recognition

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章