論文鏈接:Hybrid Subspace Learning for High-Dimensional Data
1. Abstract
真實世界中,高維數據是一個非常普遍的問題。在高維空間中學習一個緊的,低維子空間的數據表達有助於區分信號和噪聲。PCA
方法是假設數據是可以被一個或多個隱藏的子空間的嵌入來表達。但是,在許多高維數據中,這種處理方法是不合適的。常常是隻有某些變量可以經過線性轉換投影到低維空間。論文提出了一種混合的降維技巧:部分變量投影到低維子空間,另外一部分變量保留。文章提出的模型能夠更加準確地估計隱藏空間,並且有較低的恢復誤差。
2. Introduction
高維數據經常出現在生物醫學中,比如基因表達數據(每個人基因表達數據的測量耗費較大)。一些傳統的機器學習算法缺失有效的統計性能去區分信號和噪聲。
緩和維度災難的方法包括提取原始特徵中的一個子集,或者學習一個新的子空間(原始特徵空間的投影)。論文提出的方法主要是學習數據在隱藏子空間的表達,這個表達能夠最大程度的原始數據的信息。
現存的子空間學習方法最大的限制在於它們假設數據可以通過嵌入一些低維子空間來完全表示。真實世界中,可能只有某個特徵子集纔會呈現出低維空間結構,而其餘的特徵仍然保留,而並非全部特徵。顯然,如果某些特徵 與其它特徵完全不相關,而使用降維算法在學習潛在子空間時,子空間的每個維度都會帶有 。事實上,這個特徵集 不應該帶入潛在子空間的學習上。
如下圖Fig1,兩幅圖都呈現出2維的子空間結構,但是第一幅圖的2維子空間每個維度都是 的線性組合。而第二幅圖的2維子空間只有方向纔是的線性組合,方向保留了原特徵 的信息。所以,我們需要從高維特徵中識別出對低維特徵空間沒有貢獻的稀疏特徵集,並且低維特徵空間中消去它們。
原文:In this work, we introduce a new method called hybrid subspace learning that estimates a latent representation of the data in which some features are mapped to a low-rank subspace but others remain in the original highdimensional feature space.
3. Motivation
論文使用模擬數據論證了真實世界中存在的 hybrid subspace
,一種叫做singular value spectrum
的方法被用來刻畫高維空間結構特徵(Low-Rank VS High-Dimension
)。考慮兩個極端情況,完全Low-Rank
的空間結構特徵使用singular value spectrum
描述如下圖(f),完全High-Dimension
的空間結構特徵使用同樣的方法描述如下圖(g)。
4. Model & Optimization
本節討論瞭如何使用數學模型來描述具有 hybrid subspace
結構的高維數據。
給定數據集 ,傳統的子空間學習目標是解決:
其中 表示每個點的 維表示, 表示由隱藏空間到觀測空間的映射轉換。當要求 的列向量相互正交的時候,這個模型等價於PCA
。
爲了更加靈活的允許 的每個特徵可以選擇加入Low-Rank
表達 或者High-Dimension
表達 。所以總結得到以下優化問題:
其中, 表示提取矩陣中某些維度。 正則化 項的目的主要是爲了限制過多的保留高維空間中的成分。
上述模型直接求解不太容易,需要對其進行變形處理以鬆弛限制條件,得到易於求解的優化目標。具體處理辦法及優化方法篇幅過長,類似於Robust PCA
的方法,想了解詳情的同學建議閱讀原論文。