吳恩達老師機器學習筆記（五：降維（主成分分析PCA））

原創

至简1995

2020-06-22 23:05

第15章節——降維

降低維度的作用：

·數據壓縮（對數據進行壓縮，使得數據佔用較少的內存或者硬盤空間，還可以讓我們對學習算法進行加速）
·可視化數據

二維——》降低到一維二維平面上的數據映射到一條線上，即數據本身需要二維向量來表示，通過降維，一維向量即可表示該樣本數據
三維——》降低到二維三維空間映射到平面

數據壓縮：

可視化

這裏把總的GDP( 收入、幸福指數) 映射到 Z1，把平均 GDP( 收入、幸福指數) 映射到 Z2
主成分分析PCA： 找到一個低維度的平面來對數據進行投影，以便最小化投影誤差的平方，以及最小化每個每個點和投影后的對應點之間的距離的平方值。
均值歸一化（特徵縮放）
數據重構（即高緯度數據壓縮到低緯度，再轉換爲高緯度的過程，可以得到原始數據的近似）

如圖所示：該過程爲，把綠色線上的點，映射壓縮到用一維的 Z 表示，然後把一維的數據反向映射回去的過程，低維到高維，可以得到最初數據的近似。

如果你的數據樣本是 10000維，比如 100 * 100 的圖片，這種高維的特徵向量，運行學習算法時將變得非常慢。而 PCA 算法可以有效減少數據的維度，從而使算法運行得更加高效。使學習算法運行更快，而且不就
在許多問題上，我們的確可以減少數據的維度到十分之一，而且仍然保留着數據的方差特性，幾乎不影響性能。
PCA 做的是定義一個從 X 到 Z 的映射，通過降低數據維度，來提升算法學習速度的方法。

PCA的應用：

對於數據降維（數據壓縮），爲了選擇 K ,我們通常會計算方差保留的百分比，通常學習算法加速應用需要保留 99% 的方差。
對於可視化而言，我們通常選擇K 等於 2 或者 3

其他需要注意的地方：

通過PCA 減少數據維度的方法來防止過擬合，效果也許會不錯，但是這不是一種解決過擬合好的方式。
對於解決過擬合，使用正則化的方式更合適。
使用PCA較好的方式是使用它來提升學習算法的速度
一個項目計劃中，不要一開始就使用PCA, 應該先看看原始數據的運行效果和速度，再考慮是否可以使用PCA來進行優化

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

吳恩達老師機器學習筆記（五：降維（主成分分析PCA））

第15章節——降維

PCA的應用：

DAPPER 事務 TRANSACTION

Linux下cuda9.1安裝Pytorch和Torchvision|簡記

Linux服務器沒有圖形界面的情況下使用matplotlib繪圖 | matplotlib.use(‘Agg‘)

CycleGAN-and-pix2pix 環境搭建|簡記

指定GPU運行和訓練 python程序

kaldi環境搭建 | yesno 測試

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結