五 降維
5.1 簡介
5.2 內容
5.2.1 背景
前期提到,解決過擬合,有三種方法
- 增加樣本數
- 正則化:限制參數空間,給他一些約束。這樣在求參數x的矩陣一定可逆
- 降維
這裏我們重點就是降維,降維分爲三種方式
- 直接降維:特徵選擇
- 線性降維:PCA、MDS
- 非線性降維:流形:LLE(局部線性嵌入),ISOMAP(等度量映射)
引出降維的方法以後,我們再說一下降維是怎麼來的,降維的思路來源於*維度災難(dimensial cruse)*的問題,維度災難是什麼呢:
隨着維度的增加,數據會出現維度災難,數據會十分稀疏。幾何表現上就是數據都不會位於球內,而是都集中在正方體和球之間,如下圖。
在高維數據中,主要樣本都位於立方體的邊緣,數據集更加稀疏。
5.2.2 樣本均值&樣本方差矩陣
背景
爲了方便,我們首先將協方差矩陣(數據集)寫成中心化的形式,中心化是啥:
它的意義就是把數據歸零化,將數據點往原點附近拉,如下圖。每一維減去它的均值就能實現。
A 已知
B 求
樣本均值
樣本協方差
C 解
樣本均值
樣本協方差
H爲centering matrix,中心化矩陣
D 手稿
5.2.3 最大投影方差
背景
一箇中心:原始特徵空間的重構(相關->無關)
兩個基本點:最大投影方差、最小重構代價。這兩個是一個意思,兩種角度。
要讓它投影到分佈的互相更遠,即方差最大,距離最遠。如果不遠,都堆一起了,就無法最大程度還原原始數據。
兩個基本點服務於一箇中心。
A 已知
B 求
B.1 投影方差
B.2 建模
C 解
D 收穫
最大投影方差,最小重構距離,其實就是一個意思的兩種不同表達,要讓它投影到(u1、u2)後樣本點們離的越遠越好,即樣本點們方差最大,距離最遠。
如果不遠,都聚集在一起,就無法最大程度還原原始數據。
5.2.4 最小重構代價
A 已知
B 求
最小重構代價損失函數及建模
C 解
D 收穫
降維過程:
- 先做重構
- 再做特徵空間的篩選。扔掉特徵值比較小的。
最大投影方差:
總共p個,把前q個特徵值最大的向量取出來,對應的特徵向量作爲方向
最小重構代價:
求的是重構後的餘量,得到最小的,求出這些餘量
E 手稿
5.2.5 SVD角度看PCA和PCoA
A 已知
B 分析
5.2.6 主成分分析(PCA)-概率角度(Probabilistic PCA)
背景
一箇中心:原始特徵空間的重構(相關->無關)
兩個基本點:最大投影方差、最小重構代價
A 分析
5.3 問題
5.4 小結
降維的過程:1)先做重構;2)再做特徵空間的篩選。降維就是要扔掉特徵值比較小的。
以下來自
tsyw
的github庫筆記
降維是解決維度災難和過擬合的重要方法,除了直接的特徵選擇外,我們還可以採用算法的途徑對特徵進行篩選,線性的降維方法以 PCA 爲代表,在 PCA 中,我們只要直接對數據矩陣進行中心化然後求奇異值分解或者對數據的協方差矩陣進行分解就可以得到其主要維度。非線性學習的方法如流形學習將投影面從平面改爲超曲面。
參考文獻
[1] shuhuai008. 【機器學習】【白板推導系列】【合集 1~23】. bilibili. 2019.
https://www.bilibili.com/video/BV1aE411o7qd?p=13