機器學習之主成分分析(PCA&特徵選擇)

原創

Rakers

2020-05-01 13:59

一、描述出其本身的含義：

1、特徵選擇

　　特徵選擇對於數據科學家、機器學習從業者來說非常重要。好的特徵選擇能夠提升模型的性能，更能幫助我們理解數據的特點、底層結構，這對進一步改善模型、算法都有着重要作用。

特徵選擇主要有兩個功能：

(1)減少特徵數量、降維，使模型泛化能力更強，減少過擬合
(2)增強對特徵和特徵值之間的理解

　　拿到數據集，一個特徵選擇方法，往往很難同時完成這兩個目的。

2、PCA

　　PCA是一種數學降維方法，利用正交變換把一系列可能線性相關的變量轉換爲一組線性不相關的新變量，也稱爲主成分，從而利用新變量在更小的維度下展示數據的特徵。
　　主成分是原有變量的線性組合，其數目不多於原始變量。組合之後，相當於我們獲得了一批新的觀測數據，這些數據的含義不同於原有數據，但包含了之前數據的大部分特徵，並且有着較低的維度，便於進一步的分析。

　　主成分分析的意義:

　　　　(1)簡化運算

　　　　(2)去除數據噪音

　　　　(3)可視化高維數據（利用散點圖實現高維數據可視化）

　　　　(4)發現隱性相關變量

二、闡述出兩者的主要區別

　　PCA可用於簡化運算，可視化高維數據，發現隱性相關變量，就拿畫散點圖來說特徵選擇是通過與實際值相關性強弱選擇出最大相關性的特徵如朝向和房價、建築面積和房價，顯然建築面積和房價相關性高些，所以特徵選擇的橫座標選擇建築面積最爲合適；而PCA可以將朝向和建築面積兩個特徵合爲一個特徵，當爲散點圖的橫座標，這體現出PCA的實用性。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習之主成分分析(PCA&特徵選擇)

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

Shell/Python中的用戶名獲取

Linux創建新用戶並使用證書遠程登錄

升級黑蘋果EFI內OpenCore和驅動等

Docker定時刪除none鏡像

前後端分離開發工具YAPI部署記錄

部署Docker管理面板Portainer

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結