一、描述出其本身的含義:
1、特徵選擇
特徵選擇對於數據科學家、機器學習從業者來說非常重要。好的特徵選擇能夠提升模型的性能,更能幫助我們理解數據的特點、底層結構,這對進一步改善模型、算法都有着重要作用。
特徵選擇主要有兩個功能:
(1)減少特徵數量、降維,使模型泛化能力更強,減少過擬合
(2)增強對特徵和特徵值之間的理解
拿到數據集,一個特徵選擇方法,往往很難同時完成這兩個目的。
2、PCA
PCA是一種數學降維方法,利用正交變換把一系列可能線性相關的變量轉換爲一組線性不相關的新變量,也稱爲主成分,從而利用新變量在更小的維度下展示數據的特徵。
主成分是原有變量的線性組合,其數目不多於原始變量。組合之後,相當於我們獲得了一批新的觀測數據,這些數據的含義不同於原有數據,但包含了之前數據的大部分特徵,並且有着較低的維度,便於進一步的分析。
主成分分析的意義:
(1)簡化運算
(2)去除數據噪音
(3)可視化高維數據(利用散點圖實現高維數據可視化)
(4)發現隱性相關變量
二、闡述出兩者的主要區別
PCA可用於簡化運算,可視化高維數據,發現隱性相關變量,就拿畫散點圖來說特徵選擇是通過與實際值相關性強弱選擇出最大相關性的特徵如朝向和房價、建築面積和房價,顯然建築面積和房價相關性高些,所以特徵選擇的橫座標選擇建築面積最爲合適;而PCA可以將朝向和建築面積兩個特徵合爲一個特徵,當爲散點圖的橫座標,這體現出PCA的實用性。