淺談協方差矩陣

原創

2020-02-25 08:09

一、統計學的基本概念

統計學裏最基本的概念就是樣本的均值、方差、標準差。首先，我們給定一個含有n個樣本的集合，下面給出這些概念的公式描述：

均值：

標準差：

方差：

均值描述的是樣本集合的中間點，它告訴我們的信息是有限的，而標準差給我們描述的是樣本集合的各個樣本點到均值的距離之平均。

以這兩個集合爲例，[0, 8, 12, 20]和[8, 9, 11, 12]，兩個集合的均值都是10，但顯然兩個集合的差別是很大的，計算兩者的標準差，前者是8.3後者是1.8，顯然後者較爲集中，故其標準差小一些，標準差描述的就是這種“散佈度”。之所以除以n-1而不是n，是因爲這樣能使我們以較小的樣本集更好地逼近總體的標準差，即統計上所謂的“無偏估計”。而方差則僅僅是標準差的平方。

二、爲什麼需要協方差

標準差和方差一般是用來描述一維數據的，但現實生活中我們常常會遇到含有多維數據的數據集，最簡單的是大家上學時免不了要統計多個學科的考試成績。面對這樣的數據集，我們當然可以按照每一維獨立的計算其方差，但是通常我們還想了解更多，比如，一個男孩子的猥瑣程度跟他受女孩子的歡迎程度是否存在一些聯繫。協方差就是這樣一種用來度量兩個隨機變量關係的統計量，我們可以仿照方差的定義：

來度量各個維度偏離其均值的程度，協方差可以這樣來定義：

協方差的結果有什麼意義呢？如果結果爲正值，則說明兩者是正相關的（從協方差可以引出“相關係數”的定義），也就是說一個人越猥瑣越受女孩歡迎。如果結果爲負值，就說明兩者是負相關，越猥瑣女孩子越討厭。如果爲0，則兩者之間沒有關係，猥瑣不猥瑣和女孩子喜不喜歡之間沒有關聯，就是統計上說的“相互獨立”。

從協方差的定義上我們也可以看出一些顯而易見的性質，如：

三、協方差矩陣

前面提到的猥瑣和受歡迎的問題是典型的二維問題，而協方差也只能處理二維問題，那維數多了自然就需要計算多個協方差，比如n維的數據集就需要計算個協方差，那自然而然我們會想到使用矩陣來組織這些數據。給出協方差矩陣的定義：

這個定義還是很容易理解的，我們可以舉一個三維的例子，假設數據集有三個維度，則協方差矩陣爲：

可見，協方差矩陣是一個對稱的矩陣，而且對角線是各個維度的方差。

四、Matlab協方差實戰

必須要明確一點，協方差矩陣計算的是不同維度之間的協方差，而不是不同樣本之間的。以下的演示將使用Matlab，爲了說明計算原理，不直接調用Matlab的cov函數：

首先，隨機生成一個10*3維的整數矩陣作爲樣本集，10爲樣本的個數，3爲樣本的維數。

圖 1 使用Matlab生成樣本集

根據公式，計算協方差需要計算均值，前面特別強調了，協方差矩陣是計算不同維度之間的協方差，要時刻牢記這一點。樣本矩陣的每行是一個樣本，每列是一個維度，因此我們要按列計算均值。爲了描述方便，我們先將三個維度的數據分別賦值：

圖 2 將三個維度的數據分別賦值

計算dim1與dim2，dim1與dim3，dim2與dim3的協方差：

圖 3 計算三個協方差

協方差矩陣的對角線上的元素就是各個維度的方差，下面我們依次計算這些方差：

圖 4 計算對角線上的方差

這樣，我們就得到了計算協方差矩陣所需要的所有數據，可以調用Matlab的cov函數直接得到協方差矩陣：

圖 5 使用Matlab的cov函數直接計算樣本的協方差矩陣

計算的結果，和之前的數據填入矩陣後的結果完全相同。

五、總結

理解協方差矩陣的關鍵就在於牢記它的計算是不同維度之間的協方差，而不是不同樣本之間。拿到一個樣本矩陣，最先要明確的就是一行是一個樣本還是一個維度，心中明確整個計算過程就會順流而下，這麼一來就不會迷茫了。

原文地址：

http://pinkyjie.com/2010/08/31/covariance/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Keras深度神經網絡訓練IMDB情感分類的四種方法

原文 https://my.oschina.net/gaussik/blog/850642 Keras的官方Examples裏面展示了四種訓練IMDB文本情感分類的方法，藉助這4個Python程序，可以對Keras的使用做一定的瞭解。

2020-07-04 15:00:10

基於BP神經網絡的數據分類

轉自：基於BP神經網絡的數據分類，保存在此以學習。 BP（Back Propagation）網絡是1986年由Rumelhart和McCelland爲首的科學家小組提出，是一種按誤差逆傳播算法訓練的多層前饋網絡，是目前應用最廣泛

2020-07-04 01:37:50

數學在機器學習中的重要性

數學在機器學習中的重要性[by Dahua Lin] Linear Algebra (線性代數) 和 Statistics (統計學) 是最重要和不可缺少的。這代表了Machine Learning中最主流的兩大類方法的基礎。一

2020-07-03 11:38:38

對數學的新思考[1]

[轉林達華blog] 在過去的一年中，我一直在數學的海洋中游蕩，research進展不多，對於數學世界的閱歷算是有了一些長進。爲什麼要深入數學的世界作爲計算機的學生，我沒有任何企圖要成爲一個數學家。我學習數學的目的，是要

2020-07-03 11:38:38

opencv + face_recognition —— 人臉識別案例

文章目錄opencv + face_recognition —— 人臉識別案例0. 版本信息1. 導包2. 識別圖片中的面部3. 實現攝像頭中的面部追蹤4. 人臉追蹤+識別，分析出不同的人5. 人臉追蹤+識別，分析出不同的人（優化

2020-07-02 15:54:07

OpenCV學習——圖像基礎與幾何變換

文章目錄OpenCV學習——圖像基礎與幾何變換0. 版本信息1. 導包2. 圖像基礎2.1 圖片的讀取、展示、保存2.2 圖片的基本信息2.3 修改圖片像素點的顏色信息2.3 拆分與合併顏色三通道3. 繪圖3.1 線段、三角形、矩

2020-07-01 09:49:24

OpenCV學習——圖像特效

文章目錄OpenCV學習——圖像特效0. 版本信息1. 導包2. 灰度圖3. 顏色反轉4. 馬賽克效果5. 毛玻璃效果6. 圖片融合7. 邊緣檢測8. 浮雕效果9. 油畫效果 OpenCV學習——圖像特效 0. 版本信息產

2020-07-01 09:49:24

學習筆記———《SIFT算法》

本人在看論文的過程中涉及到了SIFT算法，通過閱讀Lowe的文章，也對應看了別人整理的筆記，個人覺得有些地方說的不是很清楚，特整理此筆記供大家參考！想下載pdf版本的朋友請到我資源裏去下載，下載地址：http://download.csd

2020-07-01 03:08:39

學習筆記———《GMM模型以及基於EM算法的參數估計》

本人在看論文的過程中涉及到了GMM模型，所以查找相關文獻整理了一下，共享給大家！基於EM算法的參數估計是通過斯坦福大學的公開課講EM算法的視頻學習的，也對應看了別人整理的筆記，個人覺得有些地方說的不是很清楚，特整理此筆記供大家參考。想下載

2020-07-01 03:08:39

統計學習方法第5章【2】----決策樹的生成

5.3 決策樹的生成 5.3.1 ID3算法核心是在決策樹各個節點上應用信息增益準則，遞歸地構建決策樹。算法5.2（ID3算法）輸入：訓練數據集D，特徵集A，閾值；輸出：決策樹T （1）若D中所有實例屬於第一類，則T爲單結點樹，並

2020-06-30 04:31:03

MachineLearning Practice: Adaboost

from numpy import * def loadSimpData(): datMat = matrix([[ 1. , 2.1], [ 2. , 1.1], [ 1.3, 1

2020-06-28 13:17:50

MachineLearning Practice: decision tree

1.K-NN算法可以完成很多分類任務，但是其中的一個較大的缺點是其無法給出數據的內在含義，決策樹能在數據形式上能對數據產生很好的解讀。決策樹能夠挖掘數據中蘊含的信息，因此決策樹可以應用於不熟悉的數據集，從中提取一系列的規則，而這個

2020-06-28 13:17:49

MachineLearning Practice: linear regression

from numpy import * def loadDataSet(fileName): #general function to parse tab -delimited floats numFeat

2020-06-28 13:17:49

Principle Contents Analysis主成分分析法和 Support Vector Machine支撐向量機

PCA PCA是一種數學方法，那他的好處都有啥???：降維降噪可視化 PCA的操作概括起來就是降維的同時讓樣本間間距最大——即使降維的影響最小化，用方差能很好解決這個問題。（我好像沒有介紹就直接開始講做法了是不是有點不妥

2020-06-27 13:34:05

Machine Learning and having it deep and structured - Hung-yi Lee

Ref: Link: Machine Learning and having it deep and structured Helpful note by AceCoooool 1-1 Deep why 由於Universal

2020-06-27 13:34:05

24小時熱門文章

最新文章

最新評論文章