數學建模學習 day01 (主成分分析與因子分析)理論篇

數學建模學習 day01

主成分分析與因子分析

常用的降維方法

在這裏插入圖片描述
具體的方法可以自行搜索或者閱讀 ‘‘西瓜書’’,這裏便不詳細展開了

正文:主成分分析(PrincipalComponentAnalysis,簡稱PCA)

對於正交屬性空間中的樣本點,如何用一個超平面對所有樣本進行恰當的表達?
容易想到,若存在這樣的超平面,那麼它大概應具有這樣的性質:

  • 最近重構性:樣本點到這個超平面的距離都足夠近;
  • 最大可分性:樣本點在這個超平面上的投影能儘可能分開。
    基於最近重構性和最大可分性,能分別得到主成分分析的兩種等價推導

光看概念的話也許半懂不懂,我們結合抽象的例子來理解一下什麼是主成分分析
注:下圖來自簡書

主成分分析的抽象理解

如下圖所示,樣本有2個特徵(特徵1,特徵2)在這裏插入圖片描述
現在我們需要對該樣本進行降維處理
首先考慮的方法是直接降維(也就是簡單粗暴的刪除一個特徵)
如,直接選擇特徵1或者特徵2降維,經過降維後的樣本由2維降到1維,如圖所示

下圖爲只保留特徵2
在這裏插入圖片描述
下圖爲只保留特徵1
在這裏插入圖片描述
可以看出剔除特徵2降維比剔除特徵1降維的樣本間的間距更大,即樣本可區分度更大。
那麼是否還有其他的映射方式,使得映射後樣本的間距更大,事實上還可以選擇某個軸線,例如下圖所示,樣本映射到該軸線之後,有更大的間距。
在這裏插入圖片描述
 PCA降維的思想就是尋找某個軸線,使得樣本映射到該軸線上後使得樣本區分度更大。
結合上圖再想想之前所提到的兩個概念是不是清晰了許多

  • 最近重構性:樣本點到這個超平面的距離都足夠近;
  • 最大可分性:樣本點在這個超平面上的投影能儘可能分開。
    接下里的問題就是如何得到這個軸線
    (注意,爲了方便舉例畫圖說明,所以舉的例子大多數都是二維的,但是PCA降維不僅僅侷限於這麼低的維度)

PCA降維步驟

下圖是一組二維的數據
在這裏插入圖片描述

步驟一:中心化

xi=0\sum x_i=0
先求出數據的均值,再把均值的點移到圓心的位置
我們可以理解爲每個數據減去均值
在這裏插入圖片描述

步驟二:找最優擬合直線PC1

重新選擇投影方向: 方差最大

  • 計算方法1 : 投影點到均值距離最大
  • 計算方法2: 等價於點到直線距離最小
    最後得出了最優解
    在這裏插入圖片描述
    下圖是我們計算後得出的最優只寫(具體的計算過程代碼已經封裝好,詳細的推導這裏暫不介紹)
    比方說我們得到的最優直線的斜率爲0.25
    那麼這個0.25可以看作 Gene1軸的影響力與Gene2軸的影響力之比 = 4:1
    這種也叫線性組合

    在這裏插入圖片描述

步驟三:找最優擬合直線PC2

之前我們找到的PC1是第一個主成分,現在來分析第二個主成分,因爲我們之前的數據是二維數據,所以只需要兩個主成分之間線性無關即可,也就是第二個主成分PC2 垂直於PC1
在這裏插入圖片描述

步驟四:座標變換

這一步沒什麼好說的
在這裏插入圖片描述

步驟5:方差之比的計算

之前的二維數據,得到的兩個主成分之間,我們計算出他們各自的方差和
PC1 = 15
**PC2 = 3 **
所以PC1所佔的比爲83% PC2爲17%
這裏的方差代表的信息量的大小,我們的目標就是在降維的同時保留儘可能多的數據
在這裏插入圖片描述
比如我們可以刪除縱向的軸,來保留橫向的PC1,這樣就保留了83%的信息
在這裏插入圖片描述
有時候,我們對保留的信息量有自己的要求,這在高維數據中體現的更多
比如對一個三維的數據我們經過PCA之後得出了PC1,PC2,PC3
如果我們最後想保留90%以上的信息量,就需要保留PC1,PC2維度的信息,可以刪除PC3的信息
在這裏插入圖片描述

正文:因子分析

因子分析是指研究從變量羣中提取共性因子的統計技術。最早由英國心理學家C.E.斯皮爾曼提出。他發現學生的各科成績之間存在着一定的相關性,一科成績好的學生,往往其他各科成績也比較好,從而推想是否存在某些潛在的共性因子,或稱某些一般智力條件影響着學生的學習成績。因子分析可在許多變量中找出隱藏的具有代表性的因子。將相同本質的變量歸入一個因子,可減少變量的數目,還可檢驗變量間關係的假設。
——《百度百科–因子分析》

友情鏈接:因子分析概念詳解

什麼是因子分析

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

因子分析的步驟

1.根據問題選取原始變量;
2. 求其相關陣R,探討其相關性;
3.從R求解初始公共因子F及因子載荷矩陣A(主成分法);
4.因子旋轉, 分析因子的含義;
5.計算因子得分函數;
6.根據因子得分值進行進一步分析(例如綜合評價)

因子分析與主成分分析的區別與聯繫:

1.因子分析、主成分分析都是重要的降維方法(數據簡化技術), 因子分析可以看作是主成分分析的推廣和發展。
2.主成分分析不能作爲一個模型來描述, 它只能作爲一般的變量變換,主成分是可觀測的原始變量的線性組合; 因子分析需要構造因子模型,公共因子是潛在的不可觀測的變量,一般不能表示爲原始變量的線性組合。
3.因子分析是用潛在的不可觀測的變量和隨機影響變量的線性組合來表示原始變量,即通過這樣的分解來分析原始變量的協方差結構(相依關係)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章