論文閱讀 (七):Multi-Instance Dimensionality Reduction (2010 MIDR)

引入

  論文地址:https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/aaai10midr.pdf
  論文出發點:高維數據集降維不可缺少,但是已有的單實例降維算法不適用於多示例學習。
  大致步驟:
  1)考慮投影矩陣 (projection matrix)中的正交性 (orthonormality)和稀疏性約束 (sparsity constraints)來降維;
  2)將目標表述爲優化問題:通過沿正交矩陣 (orthonormal matrices)切線空間 (tangent space)的梯度下降來求解;
  3)提出一種提高效率的近似方法。

1 MIDR

  有監督方法LDA和無監督方法PCA是單實例領域常用的降維方法,如果直接將其運用於多示例問題:
  1)LDA:最大化類間距、最小化類內距,無奈包中實例的標籤需要確實;
  2)PCA:最大化方差,如果將包中所有的實例作爲輸入,包內部實例的關係將被忽略。
  因此需要設計一種適用於多示例的方法。

1.1 優化目標

  令ATXi={AT\mathbf{A}\rm^T \mathbf{X}_i = \{ \mathbf{A}\rm^Txi1,,AT\boldsymbol{x}_{i1}, \dots, \mathbf{A}\rm^Txi,ni}\boldsymbol{x}_{i, n_i} \}表示第ii個 (ithi^{th})投影包,且如果包爲正,則後驗概率Pr\rm \mathbf{Pr}(yi=1(y_i = 1 |AT\mathbf{A}\rm^TXi)\mathbf{X}_i)接近1;包爲負則接近0。
  通過引入平方損失,優化問題變爲
minAi(Pr(yi=1ATXi)yi)2,(1) \min_{\mathbf{A}} \sum_i \big ( \mathbf{Pr} (y_i = 1 | {\rm \mathbf{A}^T \mathbf{X}_i}) - y_i \big)^2, \tag{1} 即使得投影包的標籤儘可能的接近原始包的標籤。
  根據標準多示例假設,包中的一個關鍵 (正)實例決定其標籤,因此這裏用一個關鍵實例的後驗概率表示一個包的後驗概率:
Pr(yi=1ATXi)=maxjPr(yij=1ATxij).(1*) \mathbf{Pr} (y_i = 1 | {\rm \mathbf{A}^T \mathbf{X}_i}) = \max_j \mathbf{Pr} (y_{ij} = 1 | {\rm \mathbf{A}^T} \boldsymbol{x}_{ij}). \tag{1*}   式 (1)變爲:
minAi(maxjPr(yij=1ATxij)yi)2.(2) \min_{\mathbf{A}} \sum_i \bigg ( \max_j \mathbf{Pr} (y_{ij} = 1 | {\rm \mathbf{A}^T} \boldsymbol{x}_{ij}) - y_i \bigg)^2. \tag{2}   對式 (2)進行優化,則需要最大化正實例和負實例的距離,如下圖 (圖片源自原論文):
MIDR示例
  爲了使得優化目標平滑,適用softmax代替max:
Pi=softmaxα(Pi1,,Pi,ni)=jPijeαPijjeαPij,(2*) P_i = {\rm softmax}_\alpha (P_{i1}, \dots, P_{i, n_i}) = \frac{\sum_j P_{ij} e^{\alpha P_{ij}}}{\sum_j e^{\alpha P_{ij}}}, \tag{2*} 其中Pr(yi=1ATXi)\mathbf{Pr} (y_i = 1 | {\rm \mathbf{A}^T } \mathbf{X}_i) / Pr(yij=1ATxij)\mathbf{Pr} (y_{ij} = 1 | {\rm \mathbf{A}^T} \boldsymbol{x}_{ij})簡寫爲PiP_i / PijP_{ij}α\alphasoftmax近似max的控制變量。
  與單實例降維類似,我們也需要處理後的特徵不相關,即A\mathbf{A}正交。優化目標變爲:
minAi(Piyi)2    s.t.    ATA=Ed,(3) \min_{\mathbf{A}} \sum_i (P_i - y_i)^2\ \ \ \ \mathbf{s.t.}\ \ \ \ {\rm \mathbf{A}^T \mathbf{A}} = \mathbf{E}_d, \tag{3} Ed\mathbf{E}_ddd維單位矩陣。
  爲使得A\mathbf{A}稀疏,使用l1l_1範數正則化 (矩陣中元素絕對值求和)。優化目標變爲:
minAi(Piyi)2+C1s,tAst    s.t.    ATA=Ed,(4) \min_{\mathbf{A}} \sum_i (P_i - y_i)^2 + C_1 \sum_{s, t} | {A}_{st}|\ \ \ \ \mathbf{s.t.}\ \ \ \ {\rm \mathbf{A}^T \mathbf{A}} = \mathbf{E}_d, \tag{4} 其中A=[Ast]D×d\mathbf{A} = [{A}_{st}]_{D \times d}C1C_1是控制參數。
  由於附加項s,tAst\sum_{s, t} | {A}_{st} |的存在,式 (4)是不平滑的,因此將Ast| A_{st}|近似爲:
AstAst(ϵ)=Ast2+ϵ2,ϵ>0,(3*) | A_{st} | \approx | A_{st} (\epsilon) | = \sqrt{A_{st}^2 + \epsilon^2}, \epsilon > 0, \tag{3*} 其中ϵ\epsilon是一個很小的正整數1,最終的優化目標爲:
minAi(Piyi)2+C1s,tAst(ϵ)    s.t.    ATA=Ed,(5) \min_{\mathbf{A}} \sum_i (P_i - y_i)^2 + C_1 \sum_{s, t} | {A}_{st} (\epsilon) |\ \ \ \ \mathbf{s.t.}\ \ \ \ {\rm \mathbf{A}^T \mathbf{A}} = \mathbf{E}_d, \tag{5}

1.2 梯度下降

  對於正交矩陣A\mathbf{A}
St(d,D)={ARD×dATA=Ed},(4*) St(d, D) = \{ \mathbf{A} \in \mathcal{R}^{D \times d} | {\rm \mathbf{A}^T} \mathbf{A} = \mathbf{E}_d \}, \tag{4*} 表示正交矩陣的集合,且是一個compact smooth manifold,稱爲compact Stiefel manifold2,並且任意一個A\mathbf{A}的切線空間3可以表示爲:
TASt(d,D)={XRD×dXTA+ATX=0}.(6) T_\mathbf{A}St (d, D) = \{ \mathbf{X} \in \mathcal{R}^{D \times d} | {\rm \mathbf{X}^T \mathbf{A} } + {\rm \mathbf{A}^T} \mathbf{X} = 0 \}. \tag{6}   


  1. Qi, L., and Sun, D. 2000. Improving the convergence of non-interior point algorithms for nonlinear complementarity problems. Mathematics of Computation 69:283–304. ↩︎

  2. Stiefel, E. 1935. Richtungsfelder und fernparallelismus in n-dimensionalel manning faltigkeiten. Comentarii Mathematici Helvetici 8:305–353. ↩︎

  3. Helmke, U., and Moore, J. B. 1994. Optimization and Dynamical systems. Springer. ↩︎

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章