多標籤分類之Principle Label Space Transformation(PLST)

Multi-label Classification with Principle Label Space Transformation

Farbound Tai Hsuan-Tien Lin 臺灣大學

2012 Neural Computation

摘要

我們提出了一種新穎的超立方體視圖,它可以幾何地感知多標籤分類問題的標籤空間。該視圖不僅使我們能夠統一許多現有的多標記分類方法,而且還設計了一種新穎的算法 - 原理標籤空間變換(PLST),它在學習之前尋求標籤之間的重要相關性。簡單有效的PLST僅依賴於奇異值分解作爲關鍵步驟。實驗結果表明,PLST比傳統的二元關聯方法更快,並且在性能和效率方面優於流行壓縮感知方法。

介紹

在這篇論文中,我們提出一個新的方法:超立方體視圖,該視圖將多標籤分類問題中的所有可能標籤集描述爲高維超立方體的頂點。該視圖不僅在同一框架下統一了LP,BR和LR,而且還允許我們設計更好的方法,利用這些標籤集頂點的幾何屬性,我們通過一種新穎的方法 - 原理標籤空間變換(PLST)來演示超立方體視圖的使用,該方法利用高維空間中的平面捕獲標籤之間的重要相關性,該方法僅使用頂點的簡單線性編碼和簡化的預測的簡單線性解碼,兩者都可以從由標籤集頂點組成的矩陣的奇異值分解(SVD)中容易地計算。此外,通過僅保持關鍵相關性,我們的方法可以顯着減少減少任務的數量在不損失預測精度的情況下解決。

超立方體視圖

超立方體視圖的關鍵是通過向量表示標籤集Y. y{0,1}K\mathbf { y } \in \{ 0,1 \} ^ { K },當且僅當k∈Y時,y的第k個分量爲1
在這裏插入圖片描述

如上圖所示,我們可以將每個Y可視化爲K維超立方體的頂點,y的第k個分量對應於超立方體的軸,表示Y中標籤k的存在或不存在,超立方體視圖允許我們統一許多現有的問題轉換方法

提出的方法

如上所述,CS依賴於標籤集稀疏性來考慮超立方體的少量頂點。我們提出的方法源於相同的考慮,但不需要標籤集稀疏性假設。從超立方體視圖中,超立方體有2K2^K個頂點,每個訓練樣例xnyn(x_n,y_n)只佔一個頂點 yny_n,在大型多標籤分類數據集中,K通常超過數百甚至數千。然而,那麼,通常訓練樣例數 N2KN \ll 2 ^ { K }.換句話說,我們稱這種現象爲超立方體稀疏性,以區別於CS使用的標籤集稀疏性。由於超立方體稀疏性,多標籤分類算法不需要學習RK\mathbb { R } ^ { K }中的整個超立方體,而是可以專注於RK\mathbb { R } ^ { K }的更小的子空間。

請注意,標籤集稀疏性意味着超立方體稀疏性,但反之亦然。根據定義,對於在s處具有標籤集稀疏性的數據集,具有多於s個標籤的所有超立方體頂點都未被訓練示例佔用,這就是 超立方體稀疏現象。例如,如果數據集在s = 2處是標籤集稀疏的,那麼這樣的數據集也是超立方體稀疏的,因爲佔用頂點的數量最多爲 (K2)+K+12K\left( \begin{array} { c } { K } \\ { 2 } \end{array} \right) + K + 1 \ll 2 ^ { K }

另一方面,超立方體稀疏度並不一定意味着標籤集稀疏性,因爲少數佔用的標籤集頂點可能包含許多標籤。例如,包含至少有 k1k-1 標籤集的標籤集稀疏的數據集是超立方稀疏的因爲這些數據佔用最多 K+12KK + 1 \ll 2 ^ { K } 個頂點。

線性標籤空間轉換

我們現在研究一個簡單的框架,側重於子空間而不是RKR^K的整個超立方體。該框架將採用M-flat作爲子空間,並通過投影將超立方體的每個頂點y編碼爲平坦中的點h。然後,原來的多標籤分類問題 {(xn,yn)}n=1N\left\{ \left( \mathbf { x } _ { n } , \mathbf { y } _ { n } \right) \right\} _ { n = 1 } ^ { N } 成爲一個多維迴歸問題 {(xn,hn)}n=1N\left\{ \left( \mathbf { x } _ { n } , \mathbf { h } _ { n } \right) \right\} _ { n = 1 } ^ { N },在獲得預測 hh 的多維迴歸量rxr(x)之後,框架然後將rxr(x)使用一些解碼器D.映射回超立方體的頂點RK\mathbb { R } ^ { K }。該框架將命名爲線性標籤空間轉換(LLST),如算法中所示
![Alt text](./1543581136196.png)

可以看出,LLST將BR和CS視爲特殊情況。對於BR,我們可以簡單地將P=IP = I作爲投影方法,並且將D作爲分量方向的舍入到{0,1}函數。因爲M = K,所以當K很大時需要許多回歸分類器rmr_m

CS試圖減少迴歸分類器的數量,從K個減少到M個,其投影矩陣P是從適當的分佈(如Gaussian,Bernoulli或Hadamard)中隨機選擇的,D是CS的術語中的重建算法,需要求解每個不同x的優化問題

原則標籤空間轉換

由於大型多標籤分類數據集中的超立方體稀疏性屬性,擁有的M維的LLST算法(遠小於原來的K維)在降低計算成本方面可能是有利的。我們提出的方法,原則標籤空間轉換(PLST),試圖通過奇異值分解(SVD)找到一個投影PP和解碼器DD

特別是,我們形成一個矩陣Y,每列是yny_n,即被佔用的頂點。然後,我們在K×N矩陣Y上執行SVD以獲得三個矩陣(Datta,1995)
Y=UΣVT\mathbf { Y } = \mathbf { U } \boldsymbol { \Sigma } \mathbf { V } ^ { T }

這裏U是K×K酉矩陣,Σ是K×N對角矩陣,V是N×N酉矩陣。通過SVD,每個yny_n可以表示爲U中的奇異向量umu_m的線性組合,矩陣Σ是包含對應於奇異向量um的奇異值σm的對角矩陣。
我們假設奇異值是有序的,矢量形成了穿過所有yn的平面的基礎。使得σ1σ2σKσ_1≥σ_2≥···≥σ_K

上式公式可以寫成:
UTY=ΣVT\mathbf { U } ^ { T } \mathbf { Y } = \mathbf { \Sigma } \mathbf { V } ^ { T }

其中正交基UTU^T可以被視爲Y的投影矩陣,其將每個y映射到不同的座標系。由於最大M奇異值對應於原始標籤空間的主要方向,我們可以丟棄UTU^T中其餘的奇異值及其相關的基矢量,以獲得更小y的投影矩陣P=UMT=[u1u2uM]T\mathbf { P } = \mathbf { U } _ { M } ^ { T } = \left[ \begin{array} { l l l l } { \mathbf { u } _ { 1 } } & { \mathbf { u } _ { 2 } } & { \cdots } & { \mathbf { u } _ { M } } \end{array} \right] ^ { T }.

與CS不同其中P是隨機形成的,使用主要方向的投影矩陣保證了從(訓練)頂點到M-flat的最小編碼誤差。請注意,主要方向的概念類似於機器學習中輸入預處理的主成分分析(PCA)的常用技術(Hastie等,2001)。在PCA中,通過分解由xnx_n形成的矩陣來獲得主要成分,並且在我們的PLST中,通過分解由yny_n形成的矩陣Y來獲得主要方向。

我們現在可以爲PLST定義一個有效的解碼器D.因爲P=UTP = U^T是正交矩陣,所以P1=PTP^{-1} = P^T,這意味着UMU_M可用於映射任何向量r,在平面上返回一個點UMr in RK\mathbf { U } _ { M } \cdot \mathbf { r } \text { in } \mathbb { R } ^ { K }。然後,在l1距離感覺(如BR)中對最近頂點的簡單舍入完成解碼。
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章