【數據挖掘】什麼是PCA技術?對於主成分分析(PCA)的降維理解(5月7日學習筆記)

1.什麼是PCA技術?

PCA技術

主成分分析技術,又稱主分量分析。主成分分析也稱主分量分析,旨在利用降維的思想,把多指標轉化爲少數幾個綜合指標。

PCA

主成分分析(Principal Component Analysis,PCA),
是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換爲一組線性不相關的變量,轉換後的這組變量叫主成分。

主成分分析是對於原先提出的所有變量,將重複的變量(關係緊密的變量)刪去多餘,建立儘可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量在反映課題的信息方面儘可能保持原有的信息。
原來要考慮多個指標的影響,現在只要考慮幾個指標的影響了(降維)。

2.爲什麼要降維?

在用統計分析方法研究多變量的課題時,變量個數太多就會增加課題的複雜性。人們自然希望變量個數較少而得到的信息較多。在很多情形,變量之間是有一定的相關關係的,當兩個變量之間有一定相關關係時,可以解釋爲這兩個變量反映此課題的信息有一定的重疊。

也就是說,我們需要通過降維的方式減少不必要研究的變量,以此來簡化課題。

3.爲什麼可以降維?

原來的變量間關係緊密,可以用新的變量來進行替換,並且也能保持原有的信息不變。
馬同學 前輩的回答如何通俗易懂地講解什麼是 PCA 主成分分析?中關於房價與房間面積的案例對此有着生動的解釋。
在這裏插入圖片描述
其中,樣本協方差的定義詳見參考文獻4鏈接,是用於衡量幾個變量間的總體誤差。
兩個變量的各個取值投影在直角座標系中,通過旋轉座標系可以確定主元,此時縱座標的主元2完全爲0
在這裏插入圖片描述
在這裏插入圖片描述
通過這樣的方式,我們將變量降成了一維。即將“房價”和"面積“降維”成“主元1”(因爲“主元2”全都爲0,完全是多餘的)

就算不是如圖所示的剛好能夠化主元2爲0的情況,也可以通過正交分解的方式降維,只是根據旋轉的座標軸不同,在不同座標系中值也會有所不同。

——————————————————
參考文獻
【1】主成分分析.百度百科.
https://baike.baidu.com/item/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90/829840
【2】PCA技術.百度百科.
https://baike.baidu.com/item/pca%E6%8A%80%E6%9C%AF/10408698?fr=aladdin
【3】如何通俗易懂地講解什麼是 PCA 主成分分析?by馬同學.知乎
https://www.zhihu.com/question/41120789?sort=created
【4】樣本方差,協方差,協方差矩陣by柚子
https://www.cnblogs.com/fujj/p/9720357.html
【5】協方差意思?by夜璇宸https://zhidao.baidu.com/question/25865701.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章