引入
論文地址:https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/aaai10midr.pdf
論文出發點:高維數據集降維不可缺少,但是已有的單實例降維算法不適用於多示例學習。
大致步驟:
1)考慮投影矩陣 (projection matrix)中的正交性 (orthonormality)和稀疏性約束 (sparsity constraints)來降維;
2)將目標表述爲優化問題:通過沿正交矩陣 (orthonormal matrices)切線空間 (tangent space)的梯度下降來求解;
3)提出一種提高效率的近似方法。
1 MIDR
有監督方法LDA 和無監督方法PCA 是單實例領域常用的降維方法,如果直接將其運用於多示例問題:
1)LDA:最大化類間距、最小化類內距,無奈包中實例的標籤需要確實;
2)PCA:最大化方差,如果將包中所有的實例作爲輸入,包內部實例的關係將被忽略。
因此需要設計一種適用於多示例的方法。
1.1 優化目標
令A T X i = { A T \mathbf{A}\rm^T \mathbf{X}_i = \{ \mathbf{A}\rm^T A T X i = { A T x i 1 , … , A T \boldsymbol{x}_{i1}, \dots, \mathbf{A}\rm^T x i 1 , … , A T x i , n i } \boldsymbol{x}_{i, n_i} \} x i , n i } 表示第i i i 個 (i t h i^{th} i t h )投影包,且如果包爲正,則後驗概率P r \rm \mathbf{Pr} P r ( y i = 1 ∣ (y_i = 1 | ( y i = 1 ∣ A T \mathbf{A}\rm^T A T X i ) \mathbf{X}_i) X i ) 接近1;包爲負則接近0。
通過引入平方損失,優化問題變爲
min A ∑ i ( P r ( y i = 1 ∣ A T X i ) − y i ) 2 , (1)
\min_{\mathbf{A}} \sum_i \big ( \mathbf{Pr} (y_i = 1 | {\rm \mathbf{A}^T \mathbf{X}_i}) - y_i \big)^2,
\tag{1}
A min i ∑ ( P r ( y i = 1 ∣ A T X i ) − y i ) 2 , ( 1 ) 即使得投影包的標籤儘可能的接近原始包的標籤。
根據標準多示例假設,包中的一個關鍵 (正)實例決定其標籤,因此這裏用一個關鍵實例的後驗概率表示一個包的後驗概率:
P r ( y i = 1 ∣ A T X i ) = max j P r ( y i j = 1 ∣ A T x i j ) . (1*)
\mathbf{Pr} (y_i = 1 | {\rm \mathbf{A}^T \mathbf{X}_i}) = \max_j \mathbf{Pr} (y_{ij} = 1 | {\rm \mathbf{A}^T} \boldsymbol{x}_{ij}).
\tag{1*}
P r ( y i = 1 ∣ A T X i ) = j max P r ( y i j = 1 ∣ A T x i j ) . ( 1 * ) 式 (1)變爲:
min A ∑ i ( max j P r ( y i j = 1 ∣ A T x i j ) − y i ) 2 . (2)
\min_{\mathbf{A}} \sum_i \bigg ( \max_j \mathbf{Pr} (y_{ij} = 1 | {\rm \mathbf{A}^T} \boldsymbol{x}_{ij}) - y_i \bigg)^2.
\tag{2}
A min i ∑ ( j max P r ( y i j = 1 ∣ A T x i j ) − y i ) 2 . ( 2 ) 對式 (2)進行優化,則需要最大化正實例和負實例的距離,如下圖 (圖片源自原論文 ):
爲了使得優化目標平滑,適用softmax 代替max:
P i = s o f t m a x α ( P i 1 , … , P i , n i ) = ∑ j P i j e α P i j ∑ j e α P i j , (2*)
P_i = {\rm softmax}_\alpha (P_{i1}, \dots, P_{i, n_i}) = \frac{\sum_j P_{ij} e^{\alpha P_{ij}}}{\sum_j e^{\alpha P_{ij}}},
\tag{2*}
P i = s o f t m a x α ( P i 1 , … , P i , n i ) = ∑ j e α P i j ∑ j P i j e α P i j , ( 2 * ) 其中P r ( y i = 1 ∣ A T X i ) \mathbf{Pr} (y_i = 1 | {\rm \mathbf{A}^T } \mathbf{X}_i) P r ( y i = 1 ∣ A T X i ) / P r ( y i j = 1 ∣ A T x i j ) \mathbf{Pr} (y_{ij} = 1 | {\rm \mathbf{A}^T} \boldsymbol{x}_{ij}) P r ( y i j = 1 ∣ A T x i j ) 簡寫爲P i P_i P i / P i j P_{ij} P i j ;α \alpha α 是softmax 近似max 的控制變量。
與單實例降維類似,我們也需要處理後的特徵不相關,即A \mathbf{A} A 正交。優化目標變爲:
min A ∑ i ( P i − y i ) 2 s . t . A T A = E d , (3)
\min_{\mathbf{A}} \sum_i (P_i - y_i)^2\ \ \ \ \mathbf{s.t.}\ \ \ \ {\rm \mathbf{A}^T \mathbf{A}} = \mathbf{E}_d,
\tag{3}
A min i ∑ ( P i − y i ) 2 s . t . A T A = E d , ( 3 ) E d \mathbf{E}_d E d 即d d d 維單位矩陣。
爲使得A \mathbf{A} A 稀疏,使用l 1 l_1 l 1 範數正則化 (矩陣中元素絕對值求和)。優化目標變爲:
min A ∑ i ( P i − y i ) 2 + C 1 ∑ s , t ∣ A s t ∣ s . t . A T A = E d , (4)
\min_{\mathbf{A}} \sum_i (P_i - y_i)^2 + C_1 \sum_{s, t} | {A}_{st}|\ \ \ \ \mathbf{s.t.}\ \ \ \ {\rm \mathbf{A}^T \mathbf{A}} = \mathbf{E}_d,
\tag{4}
A min i ∑ ( P i − y i ) 2 + C 1 s , t ∑ ∣ A s t ∣ s . t . A T A = E d , ( 4 ) 其中A = [ A s t ] D × d \mathbf{A} = [{A}_{st}]_{D \times d} A = [ A s t ] D × d 和C 1 C_1 C 1 是控制參數。
由於附加項∑ s , t ∣ A s t ∣ \sum_{s, t} | {A}_{st} | ∑ s , t ∣ A s t ∣ 的存在,式 (4)是不平滑的,因此將∣ A s t ∣ | A_{st}| ∣ A s t ∣ 近似爲:
∣ A s t ∣ ≈ ∣ A s t ( ϵ ) ∣ = A s t 2 + ϵ 2 , ϵ > 0 , (3*)
| A_{st} | \approx | A_{st} (\epsilon) | = \sqrt{A_{st}^2 + \epsilon^2}, \epsilon > 0,
\tag{3*}
∣ A s t ∣ ≈ ∣ A s t ( ϵ ) ∣ = A s t 2 + ϵ 2 , ϵ > 0 , ( 3 * ) 其中ϵ \epsilon ϵ 是一個很小的正整數,最終的優化目標爲:
min A ∑ i ( P i − y i ) 2 + C 1 ∑ s , t ∣ A s t ( ϵ ) ∣ s . t . A T A = E d , (5)
\min_{\mathbf{A}} \sum_i (P_i - y_i)^2 + C_1 \sum_{s, t} | {A}_{st} (\epsilon) |\ \ \ \ \mathbf{s.t.}\ \ \ \ {\rm \mathbf{A}^T \mathbf{A}} = \mathbf{E}_d,
\tag{5}
A min i ∑ ( P i − y i ) 2 + C 1 s , t ∑ ∣ A s t ( ϵ ) ∣ s . t . A T A = E d , ( 5 )
1.2 梯度下降
對於正交矩陣A \mathbf{A} A :
S t ( d , D ) = { A ∈ R D × d ∣ A T A = E d } , (4*)
St(d, D) = \{ \mathbf{A} \in \mathcal{R}^{D \times d} | {\rm \mathbf{A}^T} \mathbf{A} = \mathbf{E}_d \},
\tag{4*}
S t ( d , D ) = { A ∈ R D × d ∣ A T A = E d } , ( 4 * ) 表示正交矩陣的集合,且是一個compact smooth manifold,稱爲compact Stiefel manifold ,並且任意一個A \mathbf{A} A 的切線空間可以表示爲:
T A S t ( d , D ) = { X ∈ R D × d ∣ X T A + A T X = 0 } . (6)
T_\mathbf{A}St (d, D) = \{ \mathbf{X} \in \mathcal{R}^{D \times d} | {\rm \mathbf{X}^T \mathbf{A} } + {\rm \mathbf{A}^T} \mathbf{X} = 0 \}.
\tag{6}
T A S t ( d , D ) = { X ∈ R D × d ∣ X T A + A T X = 0 } . ( 6 )