論文內容：

概述了零樣本學習，劃分爲三種類別；
零樣本學習過程中所採用的不同語義空間；
對現有零樣本學習方法進行了分類，並在每個類別下介紹了具有代表性的方法；
討論了零樣本學習的不同應用方向；
零樣本學習的未來研究方向。

INTRODUCTION

零樣本學習的應用場景：

目標類別數據量特別大，場景CV領域。
目標類別非常少見。
目標類別經常變換，例如某公司的產品圖像，會隨着時代和潮流改變風格。
某些任務上，標註數據非常昂貴。

因此ZSL應運而生。

zero-shot learning定義：

給定訓練標籤數據 $D^{tr}$ 屬於已知類別S，zero-shot learning目標學習分類器： $f^{u}(\cdot) : X \rightarrow \mathcal{U}$ ，能夠對測試集 $X^{te}$ 預測出類別 $Y^{te} \in \mathcal{U}$ ， $\mathcal{U}$ 表示未見類別。

現有的zsl類別：

[外鏈圖片轉存失敗(img-wHytIo4i-1567006037501)(assets/image-20190828124733572.png)]

Semantic space

在語義空間上，每一個類別都有一個相應的表示，一般語義空間都是一個向量空間，而類別都已其對應的向量集合。

定義語義空間 ${T}$ ，定義 $t_i^s \in T$ 是已知類別 $c_i^s$ 的原型，定義 $t_i^u \in T$ 是已知類別 $c_i^u$ 的原型，, $T^s=\{t_i^s\}_{i=1}^{N_s}$ 表示已知類別的語義空間， $T^u=\{t_i^u\}_{i=1}^{N_u}$ 表示位置類別的語義空間，定義 $\pi(\cdot) :\mathcal{S} \cup \mathcal{U} \rightarrow {T}$ 表示類別到語義空間的映射關係。在zsl中， $T^u, T^s$ 都會在分類器 $f^{u}(\cdot)$ 的訓練中出現。

Learning settings

Class-Inductive Instance-Inductive (CIII) Setting

Only labeled training instances $D^{tr}$ and seen class prototypes $T^s$ are used in model learning.

Class-Transductive Instance-Inductive (CTII) Setting

Labeled training instances $D^{tr}$ , seen class prototypes $T^s$ and unseen class prototypes $T^u$ are used in model learning.

Class-TransductiveInstance-Transductive(CTIT)Setting

Labeledtraininginstances $D^{tr}$ , seen class prototypes $T^s$ , unlabeled testing instances $X^{te}$ and unseen class prototypes $T^u$ are used in model learning.

使用的符號定義：

[外鏈圖片轉存失敗(img-1r4RYxIK-1567006037502)(assets\1566921814479.png)]

SEMANTIC SPACES

[外鏈圖片轉存失敗(img-JZv625yo-1567006037502)(assets/1566922401213.png)]

Engineered Semantic Spaces

engineered semantic spaces: SEMANTIC SPACES的每一維都是人工設計的。

Attribute spaces

Attribute spaces are kinds of semantic spaces that are constructed by a set of attributes.

通過一系列屬性表示語義空間。

Lexical spaces

Lexical spaces are kinds of semantic spaces that are constructed by a set of lexical items

Text-keyword spaces

constructed by a set of keywords extracted from the text descriptions of each class

text-keyword space is constructed through extracting keywords and using each of
them as a dimension in the constructed space

Some problem-specific spaces

Some engineered semantic spaces are designed specifically for certain problems.

Learned Semantic Spaces

通過機器學習模型輸出的來獲得語義空間。

Label-embedding spaces

embedding of class labels

類別標籤都是由詞語或者短語組成，因此可以通過word embedding方法將其轉化爲相應的向量空間。

embedding方法有很多，包括

word2vec
flove

不同的語料庫也會訓練出不同embedding，例如公用語料wikipedia，專用語料如Flickr。

同一個類別也可以生成多個語義向量。

Text-embedding spaces

embedding the text descriptions for each class

類別的描述文本作爲模型輸入，輸出向量作爲類別的向量表達。

Image-representation spaces

the class prototypes are obtained from images belonging to each class.

將屬於某個類別的圖片，輸入到預訓練的模型（例如GoogLeNet）,輸出向量作爲類別表徵向量。

learned semantic spaces總結：優勢：1）減少人力。2）能捕捉人容易忽略的信息。劣勢：機器學習模型生成的語義空間是黑核的，難以結合域的知識到語義空間中。

METHODS

Classifier-Based Methods

使用one-vs-rest方法來學習zero-shot分類器 $f^u_i(\cdot)$ ，對於每一個未知類別 $c_i^u$ ，學習一個one-vs-rest的二分類器， $f^u_i(\cdot): R^D \rightarrow \{0,1\}$ ，二分類器分類是否是類別 $c_i^u \in \mathcal{U}$ ，最終的zero-shot分類器 $f^u(\cdot)$ 由多個二分類器組成: $\left\{f_{i}^{u}(\cdot) | i=1, \ldots, N_{u}\right\}$

Correspondence methods

語義空間的prototype是類別的一種表徵，one-vs-rest分類器輸出也是其表徵，Correspondence methods目標在學習這兩種表徵之間的correspondence function（我理解是映射關係）

Relationship methods

Combination methods

Future Directions

輸入數據的特性研究

基於傳感器的活動識別，可以利用數據的時序特性；
目標分類可以利用part信息；
視頻相關問題，可以利用多模態信息

訓練數據的選擇

異構訓練數據和測試數據：
1）不同語義類型：訓練數據是物體圖像，測試數據是場景圖像
2）不同數據類型：訓練數據是圖像+視頻，測試圖像是視頻
訓練數據的動態選擇
假設1：可見類能夠動態選擇
假設2：訓練樣例可以動態標記

輔助信息的選擇和保持

目標是選擇更有幫助的輔助信息。現在的輔助信息是受人類視覺識別系統啓發。應該有其他的方法來作爲輔助信息。
比如，人類定義的相似性信息；比如學到的屬性信息。

保持信息，是因爲在只學習分類器的時候很可能會丟棄一部分語義信息。比如有的方法通過一個重構模型來保持更多的語義信息。

更實際和應用特定的問題設定

例如，廣義的零樣本學習，就是要同時識別已見類和未見類。
更實際和更特定於任務的設定，會被探索。比如，在某些應用中，要識別的類別特別多。這就是大規模場景下的設定。還有一些訓練實例和語義信息是在線可獲取的，一些在線增量學習通過學習新的屬性並用在線的方式適配這些新的屬性。基於應用的特定，更多的場景特定的零樣本學習問題將會被探索。

理論保證

一些理論問題還沒有被解決：
1）怎麼選擇輔助信息？
2）爲了輔助測試實例的分類，我們要從訓練實例中遷移什麼信息？
3）如何抑制無關信息，避免負遷移

和其他學習範例的結合

比如，網絡監督學習、小樣本學習。

小樣本學習的學習模式？

A Survey of Zero-Shot Learning: Settings, Methods, and Applications-閱讀筆記

文章目錄