數學建模學習筆記(一)--PCA

一、PCA主成分分析法

優秀文章:http://blog.codinglabs.org/articles/pca-tutorial.html

1.方差

其中N爲總體數量,但是在現實中總數往往是無法得到的,所以經校正後,用n-1即樣本容量-1來代替N。

2.協方差

衡量兩個變量的總體誤差。如果爲正,說明同向變化,爲負則是反向變化,大小表示程度。如果兩個變量是獨立的,則協方差爲0(實際計算結果約等於0)。方差是協方差的特殊形式,即X,Y爲同一變量,表示一個變量對其自身的數學期望的離散程度。

3.協方差矩陣

如上述公式,給定d個不同的變量,協方差矩陣就是d個變量兩兩求協方差,注意對角線元素本質上是求方差。明顯,這是一個對稱矩陣。

4.線性變換

http://mengqi92.github.io/2016/05/20/linear-algebra-3/

5.降維

用矩陣乘法[k,m]·[m,1]=[k,1]就能夠將m維的向量降維到k維(k<=m),也是作基變換。如上例:向量(3,2)基變換到(1/sqrt(2),1/sqrt(2))和(-1/sqrt(2),1/sqrt(2))這兩個基。

6.降維的優化目標

雖然二維降到一維時只要使結果的方差最大,就能夠最大程度保存原始信息(直觀上投影后儘量分散,結果向量的每個位置xi的方差最大)。但是高維的投影中,我們希望不同位置之間沒有相關性,所以用方差描述是不夠的。而使用協方差能夠表示兩個不同位置之間的相關性。

所以優化目標爲:將一組N維向量降爲K維,其目標是選擇K個單位(模爲1)正交基,使得原始數據變換到這組基上後,不同位置上兩兩間協方差爲0,而同一個位置上的方差則儘可能大。

7.優化的過程

首先,上面X爲初始數據(這裏每一行的期望爲0),我們發現了下面這個事實:

上面矩陣對角線上的是不同位置的方差,非對角線上的對應位置的協方差。所以上述方法能夠用來計算一個矩陣的協方差矩陣。

那麼,根據上面的優化目標,就是讓降維結果矩陣的協方差矩陣對角化:即除對角線外的其它元素化爲0,並且在對角線上將元素按大小從上到下排列。

到這裏,基本思想已經完成,爲了簡化過程,我們推導發現了下面事實:

PX=Y,P爲變換基,X爲原數據,Y爲降維後的數據,C是X的協方差矩陣,D是Y的協方差矩陣。上面說明降維結果的協方差矩陣可以用變換基與原數據的協方差矩陣計算出來。接下來就是尋找合適的變換基P,滿足計算出的D是一個對角矩陣,並且對角元素按從大到小依次排列,那麼P的前K行就是要尋找的基,用P的前K行組成的矩陣乘以X就使得X從N維降到了K維並滿足上述優化條件

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章