人工智能教程 - 學科基礎課程2.6 - 機器學習導論 14.降維,數據壓縮,可視化數據,PCA簡介

降維

dimensionality reduction

有幾個原因去降維

  • 數據壓縮 data compression
    使得數據佔用較小的空間,還能對學習算法進行加速。
  • 可視化數據

數據壓縮,用一維取代二維,減少冗餘redeuces the redundancy

在這裏插入圖片描述

用二維取代三維

在這裏插入圖片描述

可視化數據

如果將數據可視化,可以更好的瞭解數據。

50維數據

在這裏插入圖片描述

50維\rightarrow 2維,但是其可視化的數據沒有實際的物理意義

在這裏插入圖片描述

降維的算法只負責減少維數,而新產生的特徵的物理意義則需要由我們自己去發現了。

在這裏插入圖片描述

主成分分析 PCA

principal component analysis

最主要的降維操作,壓縮數據

在PCA中,我們要找到一個方向向量(Vector direction),把所有的數據都投射到該向量上,使投射平均均方誤差能儘可能地小。

在這裏插入圖片描述

預處理非常關鍵:

  1. 執行均值歸一化。
  2. 根據數據情況,可能也要執行特徵縮放。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章