概率論與數理統計基礎知識——期望、方差、協方差相關公式

基本概念

先梳理一下概率論中的幾個基本概念。

事件
事件指某種情況的“陳述”,通俗來講,事件就是一些case,比如A事件定義爲,擲出骰子爲偶數點=(2,4,6),這個case包含了多個結果,其中,每個結果叫做一個基本事件,一個事件是由若干基本事件構成的。由此可見,事件的本質是 集合

有了事件,自然就有事件之間的關係,因爲事件的本質是集合,所以我們可以用集合的運算符號來表達事件之間的基本邏輯關係,以下關係都可以用集合中的韋恩圖來理解,這裏就不畫了。
基本關係有 :

蘊含與相等:如果當A發生時B必發生 ,記 ABA\subset B,當ABA,B相互蘊含時,稱兩事件相等,記 A=BA=B

互斥與對立:在一次試驗中不可能同時發生,但可以都不發生,有A就沒有B,有B沒有A,但是可以同時沒有A和B。互斥事件的一個重要情況是“對立事件”,若AA爲一事件,則事件 B={A不發生} ,記作 B=AˉB=\bar{A}

事件和(或稱並):A,BA,B 中至少發生一個(並集),記作 C=A+BC=A+B

事件積(或稱並):AA發生且BB發生(交集),記作 C=ABC=AB

事件差:AA發生且BB不發生,記作 C=AB=ABˉC=A-B=A \bar{B}

注意我們只是借用了算術中的運算符號來表達事件間的邏輯關係,算術的規則不一定能用於事件運算,這些符號不過是反映了事件間的一種邏輯關係,因而必須用邏輯思維的方式去驗證。
由事件的基本關係可進一步定義出更復雜的關係,如條件概率、事件獨立、全概率、貝葉斯等,其中相關公式可以自行查閱資料。

隨機變量
隨機變量就是試驗結果的函數,它對試驗結果的文字描述進行數字化,從而方便研究。比如拋一枚硬幣,定義1=正面朝上 ,0=反面朝上,所以隨機變量XX就代表拋硬幣這個試驗的結果,要麼0要麼1。
隨機變量按其可能取的值的全體的性質,區分爲兩大類,一類是離散型隨機變量,一類是連續型隨機變量。

分佈
研究一個隨機變量的目的是爲了進行預測,所以更重要的是它取各種值的概率如何,也就是分佈如何。
離散型隨機變量常見的分佈有:

  • 伯努利分佈(兩點分佈,Bernoulli distribution)
  • 二項分佈(binomial distribution)
  • 幾何分佈(geometric distribution)
  • 泊松分佈(Poisson distribution)

連續型隨機變量常見的分佈有:

  • 正態分佈(normal distribution)
  • 指數分佈(exponential distribution)

這些分佈之間相互做運算又有更加複雜的分佈,這裏牆裂推薦一本書 <<概率論與數理統計>> 陳希孺,看過的人都說棒!ヽ(ˋДˊ)ノ

分佈是隨機變量的概率性質最完整的刻畫,而隨機變量的數字特徵,則是由隨機變量的分佈所決定的常數,它刻畫了隨機變量(或者說,刻畫了其分佈)的某一方面的性質,人們往往也比較關心這些指標,常見的有期望,方差、協方差,下面分別介紹公式。

期望

期望是隨機變量取值的平均,以概率爲權的對隨機變量進行加權求和。

那麼它和“平均數”有什麼區別?
平均數是一個統計學的概念,是對一組已經觀察到的樣本進行統計的量,而期望是一個概率論的概念,是根據已經存在的概率分佈來“預測”樣本的平均值的量,由於概率是頻率隨樣本趨於無窮的極限,所以期望其實就是平均數隨樣本趨於無窮的極限,兩者是通過大數定理聯繫起來的。

性質
1.E(X1+X2++Xn)=E(X1)+E(X2)++E(Xn)E\left(X_{1}+X_{2}+\cdots+X_{n}\right)=E\left(X_{1}\right)+E\left(X_{2}\right)+\cdots+E\left(X_{n}\right)(無條件成立)

2.E(X1X2Xn)=E(X1)E(X2)E(Xn)E\left(X_{1} X_{2} \cdots X_{n}\right)=E\left(X_{1}\right) E\left(X_{2}\right) \cdots E\left(X_{n}\right)(獨立情況下成立)

計算
上述的定義是在我們知道概率分佈的情況下計算期望的公式,但在實際應用中,我們往往是知道一組樣本,我們需要通過樣本來估計出總體,所以我們通常是用樣本的統計量來估計這些數字特徵。假如給定一個含有n個樣本的集合,我們是通過樣本平均值來估計期望:
Xˉ=i=1nXin\bar{X}=\frac{\sum_{i=1}^{n} X_{i}}{n}

方差

方差是用來衡量隨機變量和其數學期望之間的偏離程度的量,通俗來說,就是用來衡量隨機變量的波動程度,方差越大,那麼這一組數據的波動幅度也就越大,穩定性就越小。

因爲XX是隨機的,所以偏離的量XEXX-EX本身也是隨機的,爲了避免正負相互抵消,對其取平方作爲偏離量,很自然方差就是該偏離量的期望,定義爲:Var(X)=E(XEX)2=E(X2)(EX)2\operatorname{Var}(X)=E(X-E X)^{2}=E\left(X^{2}\right)-(E X)^{2}
性質
1.常數的方差爲0
2.若C爲常數,則 Var(X+C)=Var(X)Var(X+C)=Var(X)
3.若C爲常數,則 Var(CX)=C2Var(X)Var(CX)=C^2Var(X)
4.獨立情況下,Var(X1++Xn)=Var(X1)++Var(Xn)\operatorname{Var}\left(X_{1}+\cdots+X_{n}\right)=\operatorname{Var}\left(X_{1}\right)+\cdots+\operatorname{Var}\left(X_{n}\right),注意區別期望是無條件成立

計算
假如給定一個含有n個樣本的集合,則方差計算爲:
σ2=i=1n(XiXˉ)2n1\sigma^{2}=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}{n-1}
之所以除以n-1而不是除以n,是因爲我們是用樣本去估計總體,除n-1纔是統計學上的“無偏估計”,這樣能使我們以較小的樣本集更好的逼近總體的標準差(有嚴格的數學推導,可以查閱資料)

標準化
在機器學習中,我們的數據經常是一個向量xx,也就是多維隨機變量,每個位置是一個特徵,爲了消除數據特徵間 單位和量級差異的影響,往往需要對數據進行標準化,使每個特徵的均值爲 0、方差 1,這樣特徵間就是可比較的(以下符號都是向量):
x=xxˉσx^{\prime}=\frac{x-\bar{x}}{\sigma}

協方差

協方差是多維隨機變量的數字特徵。在生活中,我們往往會從多個角度對一個事物進行觀察,這些角度也就是所謂的“特徵”,比如對於“人”,有身高、體重、胸圍、臂長等特徵,協方差就是用來衡量特徵之前有沒有相關關係的量。 以二維隨機變量 (X,Y)(X, Y)爲例,定義協方差爲:
Cov(X,Y)=E[(XEX)(YEY)]=E(XY)(EX)(EY)\operatorname{Cov}(X, Y)=E\left[\left(X- EX\right)\left(Y-EY\right)\right]=E\left(XY\right)-(E X)(EY)
可以看到它的形式和方差非常相似,不過是吧其中一項換成了 (YEY)(Y-EY),由定義可得Cov(X,X)=Var(X)\operatorname{Cov}(X, X)={Var}(X)

協方差的結果有什麼意義呢?如果結果爲正值,則說明兩者是正相關的,如果爲負,則爲負相關。從協方差可以引出“相關係數”的定義,衡量隨機變量之相關程度更多的是用相關係數,可以看這篇文章< ̄)https://blog.csdn.net/MoreAction_/article/details/106195689

性質
1.若 X,YX, Y 獨立,則 Cov(X,Y)=0\operatorname{Cov}(X, Y)=0,反過來不一定成立
2.第一條的例外:當( X,YX, Y )爲二維正態時, 由 Cov(X,Y)=0\operatorname{Cov}(X, Y)=0 能推出 X,YX, Y 獨立
3.c爲常數,Cov(c1X+c2,c3Y+c4)=c1c3Cov(X,Y)\operatorname{Cov}\left(c_{1} X+c_{2}, c_{3} Y+c_{4}\right)=c_{1} c_{3} \operatorname{Cov}(X, Y)

計算
假如給定一個含有n個樣本的集合,則協方差計算爲:
Cov(x,y)=1n1i=1n(xixˉ)(yiyˉ)\operatorname{Cov}(x, y)=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)

協方差矩陣
協方差也只能處理二維問題,維數多了就需要計算多個協方差,我們是用矩陣來進行組織,也就是協方差矩陣。以三維隨機變量(x,y,z)(x,y,z)爲例,則協方差矩陣爲:
C=(cov(x,x)cov(x,y)cov(x,z)cov(y,x)cov(y,y)cov(y,z)cov(z,x)cov(z,y)cov(z,z))C=\left(\begin{array}{ccc} \operatorname{cov}(x, x) & \operatorname{cov}(x, y) & \operatorname{cov}(x, z) \\ \operatorname{cov}(y, x) & \operatorname{cov}(y, y) & \operatorname{cov}(y, z) \\ \operatorname{cov}(z, x) & \operatorname{cov}(z, y) & \operatorname{cov}(z, z) \end{array}\right)
可見,協方差矩陣是一個對稱的矩陣,而且對角線是各個維度上的方差,協方差矩陣很有用,可以用來對數據進行更高級的分析,這裏就不說了。

如果對你有幫助,請點個贊:-D

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章