引入

論文地址：https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/aaai10midr.pdf
論文出發點：高維數據集降維不可缺少，但是已有的單實例降維算法不適用於多示例學習。
大致步驟：
1）考慮投影矩陣 (projection matrix)中的正交性 (orthonormality)和稀疏性約束 (sparsity constraints)來降維；
2）將目標表述爲優化問題：通過沿正交矩陣 (orthonormal matrices)切線空間 (tangent space)的梯度下降來求解；
3）提出一種提高效率的近似方法。

1 MIDR

有監督方法LDA和無監督方法PCA是單實例領域常用的降維方法，如果直接將其運用於多示例問題：
1）LDA：最大化類間距、最小化類內距，無奈包中實例的標籤需要確實；
2）PCA：最大化方差，如果將包中所有的實例作爲輸入，包內部實例的關係將被忽略。
因此需要設計一種適用於多示例的方法。

1.1 優化目標

令 $\mathbf{A}\rm^T \mathbf{X}_i = \{ \mathbf{A}\rm^T$ $\boldsymbol{x}_{i1}, \dots, \mathbf{A}\rm^T$ $\boldsymbol{x}_{i, n_i} \}$ 表示第 $i$ 個（ $i^{th}$ ）投影包，且如果包爲正，則後驗概率 $\rm \mathbf{Pr}$ $(y_i = 1 |$ $\mathbf{A}\rm^T$ $\mathbf{X}_i)$ 接近1；包爲負則接近0。
通過引入平方損失，優化問題變爲
$\min_{\mathbf{A}} \sum_i \big ( \mathbf{Pr} (y_i = 1 | {\rm \mathbf{A}^T \mathbf{X}_i}) - y_i \big)^2, \tag{1}$ 即使得投影包的標籤儘可能的接近原始包的標籤。
根據標準多示例假設，包中的一個關鍵 (正)實例決定其標籤，因此這裏用一個關鍵實例的後驗概率表示一個包的後驗概率：
$\mathbf{Pr} (y_i = 1 | {\rm \mathbf{A}^T \mathbf{X}_i}) = \max_j \mathbf{Pr} (y_{ij} = 1 | {\rm \mathbf{A}^T} \boldsymbol{x}_{ij}). \tag{1*}$ 式 (1)變爲：
$\min_{\mathbf{A}} \sum_i \bigg ( \max_j \mathbf{Pr} (y_{ij} = 1 | {\rm \mathbf{A}^T} \boldsymbol{x}_{ij}) - y_i \bigg)^2. \tag{2}$ 對式 (2)進行優化，則需要最大化正實例和負實例的距離，如下圖 (圖片源自原論文)：

爲了使得優化目標平滑，適用softmax代替max：
$P_i = {\rm softmax}_\alpha (P_{i1}, \dots, P_{i, n_i}) = \frac{\sum_j P_{ij} e^{\alpha P_{ij}}}{\sum_j e^{\alpha P_{ij}}}, \tag{2*}$ 其中 $\mathbf{Pr} (y_i = 1 | {\rm \mathbf{A}^T } \mathbf{X}_i)$ / $\mathbf{Pr} (y_{ij} = 1 | {\rm \mathbf{A}^T} \boldsymbol{x}_{ij})$ 簡寫爲 $P_i$ / $P_{ij}$ ； $\alpha$ 是softmax近似max的控制變量。
與單實例降維類似，我們也需要處理後的特徵不相關，即 $\mathbf{A}$ 正交。優化目標變爲：
$\min_{\mathbf{A}} \sum_i (P_i - y_i)^2\ \ \ \ \mathbf{s.t.}\ \ \ \ {\rm \mathbf{A}^T \mathbf{A}} = \mathbf{E}_d, \tag{3}$ $\mathbf{E}_d$ 即 $d$ 維單位矩陣。
爲使得 $\mathbf{A}$ 稀疏，使用 $l_1$ 範數正則化 (矩陣中元素絕對值求和)。優化目標變爲：
$\min_{\mathbf{A}} \sum_i (P_i - y_i)^2 + C_1 \sum_{s, t} | {A}_{st}|\ \ \ \ \mathbf{s.t.}\ \ \ \ {\rm \mathbf{A}^T \mathbf{A}} = \mathbf{E}_d, \tag{4}$ 其中 $\mathbf{A} = [{A}_{st}]_{D \times d}$ 和 $C_1$ 是控制參數。
由於附加項 $\sum_{s, t} | {A}_{st} |$ 的存在，式 (4)是不平滑的，因此將 $| A_{st}|$ 近似爲：
$| A_{st} | \approx | A_{st} (\epsilon) | = \sqrt{A_{st}^2 + \epsilon^2}, \epsilon > 0, \tag{3*}$ 其中 $\epsilon$ 是一個很小的正整數¹，最終的優化目標爲：
$\min_{\mathbf{A}} \sum_i (P_i - y_i)^2 + C_1 \sum_{s, t} | {A}_{st} (\epsilon) |\ \ \ \ \mathbf{s.t.}\ \ \ \ {\rm \mathbf{A}^T \mathbf{A}} = \mathbf{E}_d, \tag{5}$

1.2 梯度下降

對於正交矩陣 $\mathbf{A}$ ：
$St(d, D) = \{ \mathbf{A} \in \mathcal{R}^{D \times d} | {\rm \mathbf{A}^T} \mathbf{A} = \mathbf{E}_d \}, \tag{4*}$ 表示正交矩陣的集合，且是一個compact smooth manifold，稱爲compact Stiefel manifold²，並且任意一個 $\mathbf{A}$ 的切線空間³可以表示爲：
$T_\mathbf{A}St (d, D) = \{ \mathbf{X} \in \mathcal{R}^{D \times d} | {\rm \mathbf{X}^T \mathbf{A} } + {\rm \mathbf{A}^T} \mathbf{X} = 0 \}. \tag{6}$

Qi, L., and Sun, D. 2000. Improving the convergence of non-interior point algorithms for nonlinear complementarity problems. Mathematics of Computation 69:283–304. ↩︎
Stiefel, E. 1935. Richtungsfelder und fernparallelismus in n-dimensionalel manning faltigkeiten. Comentarii Mathematici Helvetici 8:305–353. ↩︎
Helmke, U., and Moore, J. B. 1994. Optimization and Dynamical systems. Springer. ↩︎

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

論文閱讀 (七)：Multi-Instance Dimensionality Reduction (2010 MIDR)

文章目錄

引入

1 MIDR

1.1 優化目標

1.2 梯度下降

今天！通義靈碼在北京、成都、杭州三城開講啦

【BI 可視化插件】怎麼做？手把手教你實現

論文閱讀 (七)：Multi-Instance Dimensionality Reduction (2010 MIDR)

beautifulsoup4的使用

論文閱讀 (五)：Scalable Multi-Instance Learning (miFV2014)

Python線程與進程

論文閱讀 (二)：Multi-instance learning with key instance shift (MIKI2017)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結