吳恩達機器學習-Chapter 15 降維

目的:降維的應用、概念、及算法。降維的3個目的:數據壓縮、加速算法(縮小特徵變量)、數據可視化。降維本身也是一種無監督學習算法。

1. Lesson 115 數據壓縮

    1. 目的:降維的第一個應用 數據壓縮
    2. 內容:
      1. 降維實際上就是減少特徵變量(這裏說的降維是針對特徵變量進行向量化而言),比如3維降到2維就是指3個特徵變量縮小到2個特徵變量
      2. 當特徵變量太多,而且重複度高(相關性高)在數據存儲和算法計算量上會造成浪費

2. Lesson 116 數據可視化

     1. 目的:降維的第二個應用 數據可視化
     2. 內容:當超過3維之後(超過3個變量)無法可視化,只有2維和3維才能得到比較理想的可視化

3. Lesson 117 主成分分析問題規劃1

    1. 目的:介紹主成分分析算法PCA
    2. 內容:

       1. 將數據點投影到投影平面(左下圖是2維降到1維,右下圖是3維降到2維),並使投影誤差最小
       2. PCA與線性迴歸不同,前者是點到線的最短垂直距離,後者是點到線的直線距離(垂直於座標軸);前者無預測標籤(無監督),後者有預測y(有監督)

4. Lesson 118 主成分分析問題規劃2

    1. 目的:講解PCA具體算法
    2. 內容:

      1. 數據預處理:均值標準化、特徵縮放
       2. PCA具體算法步驟

      3. 統計學基本概念,我們給定一個含有n個樣本的集合,下面給出這些概念的公式描述。
      4. 協方差及其意義
      5. 協方差矩陣

5. Lesson 119 主成分數量選擇

    1. 目的:m維數據降到k維,k值的選擇

6. Lesson 120 壓縮重現

    1. 目的:m維數據降到K維之後,通過K維數據恢復m維數據

7. Lesson 121 應用PCA建議

    1. 目的:如何應用PCA及相關建議
    2. 內容:
      1. PCA錯誤用法:防止過擬合,防止過擬合正確的做法是正則化
      2. PCA不是每個算法中必用的,根據需要選擇

      3. PCA加速有監督學習算法步驟:1)對x特徵集通過pca得到降維後的特徵集z;2)特徵集z和標籤y組成新的訓練集進行預測等;3)PCA只能用在訓練集上,在得到x=>z映射之後再應用到交叉驗證集上,得到新數據樣本的特徵集z
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章