ML基礎:協方差矩陣!

在翻譯sklearn文檔 2.無監督學習 部分過程中,發現協方差矩陣幾乎貫穿整個章節,但sklearn指導手冊把協方差部分放在了這一章節偏後的部分,作爲機器學習一個基礎概念,在這篇文章中,想把協方差矩陣的相關知識以及主要應用。

統計學中常用平均值,方差,標準差等描述數據。平均值描述了樣本集合的中間點;方差總是一個非負數,當隨機變量的可能值集中在數學期望的附近時,方差較小; 反之, 則方差較大。所以, 由方差的大小可以推斷隨機變量分佈的分散程度, 方差能反映隨機變量的一切可能值在數學期望周圍的分散程度。標準差描述了各個樣本點到均值的距離的平均值。但這些統計量都是針對一維數據的計算,在處理高維數據時,便可以採用協方差來查看數據集中的一些規律。協方差來度量兩個隨機變量關係的統計量,它描述的意義是:如果結果爲正值,則說明兩者是正相關的,否則是負相關的。需要注意的是,協方差是計算不同特徵之間的統計量,不是不同樣本之間的統計量。

協方差基本知識:

協方差公式:

設n個隨機向量:

 

從公式上看,協方差是兩個變量與自身期望做差再相乘, 然後對乘積取期望。也就是說,當其中一個變量的取值大於自身期望,另一個變量的取值也大於自身期望時,即兩個變量的變化趨勢相同, 此時,兩個變量之間的協方差取正值。反之,即其中一個變量大於自身期望時,另外一個變量小於自身期望,那麼這兩個變量之間的協方差取負值。下面根據舉一個例子來對協方差形象的解釋:

協方差矩陣是實對稱矩陣,實對稱矩陣的性質:

  1. 實對稱矩陣的不同特徵值對應的特徵向量時正交的
  2. 實對稱矩陣的特徵值是實數,特徵向量是實向量
  3. 實對稱矩陣必可對角化,且其相似對角矩陣的對角線元素爲n個特徵值

協方差矩陣中的對角線元素表示方差, 非對角線元素表示隨機向量 X 的不同分量之 問的協方差. 協方差一定程度上體現了相關性, 因而可作爲刻畫不同分 量之間相關性的一個評判量。若不同分量之問的相關性越小,則 非對角線元素的值就越小。特別地, 若不同分量彼此不相關, 那麼 C 就變成了一個對角陣。注意, 我們並不能得到協方差矩陣 $C(X)$ 的真實值, 只能根據所提供的 X 的樣本數據對其進行近似估計。因此, 這樣計算得到的協方差矩陣是依賴於樣本數據的, 通常提供的樣本數目越多 , 樣本在總體中的覆蓋面就越廣。

理解協方差矩陣的關鍵就在於牢記它計算的是不同維度之間的協方差,而不是不同樣本之間,拿到一個樣本矩陣,我們最先要明確的就是一行是一個樣本還是一個維度,心中明確這個整個計算過程就會順流而下,這麼一來就不會迷茫了。其實還有一個更簡單的容易記還不容易出錯的方法:協方差矩陣一定是一個對稱的方陣,

經驗協方差

有時候由於種種原因,並不使用全部的樣本數據計算協方差矩陣,而是利用部分樣本數據計算,這時候就要考慮利用部分樣本計算得到的協方差矩陣是否和真實的協方差矩陣相同或者近似。

當提供的樣本數目相對於特徵數足夠多時,利用最大似然估計(或者稱爲經驗協方差)計算的結果,可以認爲是協方差矩陣的幾個近似結果。這種情況下,會假設數據的分佈符合一個多元正太分佈,數據的概率密度函數中是包含協方差矩陣的,利用最大似然函數,對其進行估計。

收縮協方差

在矩陣的求逆過程中, 最大似然估計不是協方差矩陣的特徵值的一個很好的估計, 所以從反演得到的精度矩陣是不準確的。 有時,甚至出現因矩陣元素地特性,經驗協方差矩陣不能求逆。 爲了避免這樣的反演問題,引入了經驗協方差矩陣的一種變換方式,收縮協方差。

協方差矩陣——PCA實現的關鍵

PCA的本質其實就是對角化協方差矩陣。PCA的目的就是“降噪”和“去冗餘”。“降噪”的目的就是使保留下來的維度間的相關性儘可能小,而“去冗餘”的目的就是使保留下來的維度含有的“能量”即方差儘可能大。那首先的首先,我們得需要知道各維度間的相關性以及個維度上的方差啊!那有什麼數據結構能同時表現不同維度間的相關性以及各個維度上的方差呢?自然是非協方差矩陣莫屬。協方差矩陣度量的是維度與維度之間的關係,而非樣本與樣本之間。協方差矩陣的主對角線上的元素是各個維度上的方差(即能量),其他元素是兩兩維度間的協方差(即相關性)。我們需要的東西,協方差矩陣都有了。

(1)獲取更多優質內容及精彩資訊,可前往:https://www.cda.cn/?seo

(2)瞭解更多數據領域的優質課程:

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章