吳恩達老師機器學習筆記(五:降維(主成分分析PCA))

第15章節——降維

降低維度的作用:

  • ·數據壓縮(對數據進行壓縮,使得數據佔用較少的內存或者硬盤空間,還可以讓我們對學習算法進行加速)
  • ·可視化數據

二維——》降低到一維 二維平面上的數據 映射到 一條線上,即數據本身需要二維向量來表示,通過降維,一維向量即可表示該樣本數據
三維——》降低到二維 三維空間映射到平面

  • 數據壓縮:

1

  • 可視化
    2
    這裏把 總的GDP( 收入、幸福指數) 映射到 Z1,把 平均 GDP( 收入、幸福指數) 映射到 Z2
    主成分分析PCA: 找到一個低維度的平面來對數據進行投影,以便最小化投影誤差的平方,以及最小化每個每個點和投影后的對應點之間的距離的平方值。
    均值歸一化(特徵縮放)
    數據重構(即高緯度數據壓縮到低緯度,再轉換爲高緯度的過程,可以得到原始數據的近似)
    6
    如圖所示:該過程爲,把綠色線上的點,映射壓縮到用 一維 的 Z 表示,然後 把一維的數據 反向映射回去的過程,低維 到 高維,可以得到最初數據的近似。

如果你的數據樣本是 10000維,比如 100 * 100 的圖片,這種高維的特徵向量,運行學習算法時將變得非常慢。而 PCA 算法 可以有效 減少數據的維度,從而使算法運行得更加高效。使學習算法運行更快,而且不就
在許多問題上,我們的確可以減少數據的維度到 十分之一,而且仍然保留着數據的方差特性,幾乎不影響性能。
PCA 做的是 定義一個從 XZ 的映射,通過降低數據維度,來提升算法學習速度的方法。

PCA的應用:

  • 對於數據降維(數據壓縮),爲了選擇 K ,我們通常會計算方差保留的百分比,通常學習算法加速應用需要保留 99% 的方差。
  • 對於可視化而言,我們通常選擇K 等於 2 或者 3

其他需要注意的地方:

  • 通過PCA 減少數據維度的方法 來 防止 過擬合,效果也許會不錯,但是這不是一種解決過擬合好的方式。
  • 對於解決過擬合,使用正則化的方式更合適。
  • 使用PCA較好的方式是使用它來提升學習算法的速度
  • 一個項目計劃中,不要一開始就使用PCA, 應該先看看原始數據的運行效果和速度,再考慮是否可以使用PCA來進行優化
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章