概率論總結(三):隨機變量的數字特徵

一、期望與方差

1.期望

(1)期望的計算:

    設Y=g(X)

    對於離散型:

  

    對於連續型:

      

(2)期望的性質

 i.   E(C)=C

 ii.  E(CX)=CE(X)

 iii. E(X+Y)=E(X)+E(Y)

 vi. E(XY)=E(X)E(Y)     當且僅當X,Y相互獨立時

2.方差

(1)方差的計算:

    D(X)=E\{[X-E[X]]^2\}\\=E\{X^2-2XE[X]+[E[X]]^2\}\\=E[X^2]-2E[x]E[x]+[E(X)]^2\\=E[X^2]-[E(X)]^2

(2)方差的性質

i.    D(C)=0

ii.   D(CX)=C^2D(X)

iii.  D(X+C)=D(X)

vi. 

   D(X+Y)=E\{[(X+Y)-E(X+Y)]^2\}\\=E\{[(X-E(X))+(Y-E(Y))]^2\}\\=E\{(X-E(X))^2\}+E\{(Y-E(Y))^2\}+2E\{[X-E(X)][Y-E(Y)]\}\\=D(X)+D(Y)+2E\{[X-E(X)][Y-E(Y)]

  2E\{[X-E(X)][Y-E[Y]]\}\\=2E\{XY-XE[Y]-YE[X]+E[X]E[Y]\}\\= 2\{E(XY)-E[X]E[Y]-E[Y]E[X]+E[X]E[Y]\}\\=2\{E(XY)-E[X]E[Y]\}

    當X,Y相互獨立時,由數學期望的性質4可知上式爲0,於是

    D(X+Y)=D(X)+D(Y)

3.推論

(1)獨立隨機變量的線性組合的期望和方差,以正態分佈爲例

    若X_i \sim N(\mu _i, \sigma _i^2)

    則C_1X_1+C_2X_2+...+C_nX_n\sim N(\sum _{i=1}^nC_i \mu _i, \sum _{i=1}^nC_i^2\sigma _i^2)

二、切比雪夫不等式和馬爾可夫不等式 

1.切比雪夫不等式

     切比雪夫不等式描述的數字的是,大部分的數據都會分佈在均值附近,分佈的多少跟方差也有關。

    P(|X-\mu |\geq \epsilon) \leq \frac{\sigma ^2}{\epsilon ^2}

    或者寫成以下形式:

    P(|X-\mu |<\epsilon)\geq1-\frac{\sigma ^2}{\epsilon ^2}

    或者寫成以下形式:這條式子是我們高中時學的正態分佈的三個百分比68.27%,95%,99%的來源

    P(|X-\mu |\geq k\sigma)\leq\frac{1}{k^2}

    第三條式子有第一條式子進行變量替換得到,證明見下

2.馬爾可夫不等式

    P(X \geq a) \leq \frac{E(X)}{a} \quad X\geq 0, a>0

    馬爾可夫是切比雪夫的學生,是俄羅斯的大數學家,根據他老師提出的切比雪夫不等式,提出了馬爾可夫不等式,該不等式可以用來證明了切比雪夫不等式。

3.證明

   (1)切比雪夫不等式的證明

    P(|X-\mu |\geq \epsilon) = \int _{|x-\mu |\geq \epsilon}f(x)dx \leq \int _{|x-\mu |\geq \epsilon}\frac{|x-\mu |^2}{\epsilon ^2}f(x)dx\\...\quad\quad\quad\quad\quad\quad \leq \frac{1}{\epsilon ^2}\int _{-\infty}^{\infty}|x-\mu |^2f(x)dx=\frac{\sigma^2}{\epsilon ^2}

     這裏積分區域一定,所以加上去的\frac{|x-\mu |^2}{\epsilon ^2}\geq 1, 同時第三個式子推導到第四個式子是因爲其積分範圍小於負無窮到正無窮,而積分變量是正的,所以積分區域越大,值越大。

    (2)馬爾可夫不等式的證明

    P(X\geq a) = \int _{a}^{+\infty}f(x)dx \leq \int _{a}^{+\infty}\frac{X}{a}f(x)dx \\...\quad\quad\quad\quad\quad \leq \int _{-\infty}^{+\infty}\frac{X}{a}f(x)dx = E(\frac{X}{a})=\frac{E(X)}{a}

    (3)利用馬爾可夫推導切比雪夫:

        

 三、協方差及相關係數

1.協方差

(1)協方差的計算

    在方差的性質當中,我們有:

    D(X+Y)=D(X)+D(Y)+2E\{[X-E(X)][Y-E(Y)]

    經過上面的推導我們知道,如果X,Y相互獨立,那麼第三項爲0,所以第三項反映了X,Y之間聯繫的緊密程度。我們把它定義爲協方差。

    Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]=E(XY)-E[X]E[Y]

    X和X的協方差也就是它的方差,但在某些領域我們仍把他稱爲協方差(Coviariance) 。

(2)協方差的性質

    Cov(aX,bY) = abCov(X,Y)

    Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)

2.相關係數

    定義爲:

    \rho _{XY} = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}

    相關係數也稱爲Pearson係數,用來衡量兩者的相關程度。

四、矩和協方差矩陣

1.矩

 (1)物理意義

    數學中矩的概念來自物理學。在物理學中,矩是表示距離和物理量乘積的物理量,表徵物體的空間分佈。由其定義,矩通常需要一個參考點(基點或參考系)來定義距離。如力和參考點距離乘積得到的力矩(或扭矩)。 

    i.原點矩

    有一個船舵,有三個船員都用力轉動船舵,不過着手點力臂分別爲L1,L2,L3。那麼平均力矩是:

    a = \frac{F_1L_1+F_2L_2+F_3L_3}{3}

    有個問題,如果有個船員反向推動船舵,要怎樣衡量大家用力的總能量呢?很簡單,將力取平方。比如 L2 對應的力方向相反,則平均能量可以寫成:

    a = \frac{(F_1L_1)^2+(-F_2L_2)^2+(F_3L_3)^2}{3}

    1)式即一階原點矩,2)式即二階原點矩。所謂一階二階,指代的是力矩的階數。前者衡量的是力矩的平均水平,後者衡量的是能量。所謂“原點”,是因爲力矩的計算是指向船舵原點的(也就是L=0),但既然有指向原點的“原點矩”,就有指向其他位置的矩,這種矩叫“中心矩”。

    ii.中心矩

    這個“中心”,指的是哪裏呢?是平均值。爲了便於理解,我們將上述例子中的力取相等的F。 那麼一階中心矩就是:

    m_1 = \frac{(FL_1-F\bar L)+(FL_2-F\bar L)+(FL_3-F\bar L)}{3}=0

    可見一階中心矩恆等於零,所以中心矩一般是從二階開始的。

    下面就是二階中心矩:

    m_2 = \frac{(FL_1-F\bar L)^2+(FL_2-F\bar L)^2+(FL_3-F\bar L)^2}{3}

    可以看到他就是方差,衡量的是三個力矩的離散程度。

    下面總結以下各階矩

名稱 含義
一階原點矩 平均值
二階原點矩 平均能量
一階中心矩 0
二階中心矩 方差
三階中心矩 偏度    K_3 = \frac{m_3}{\sigma ^3} 稱爲偏度因子,是消除量綱後的偏度
四階中心矩 峭度    K_4 = \frac{m_4}{\sigma ^4} 稱爲峭度因子,是消除量綱後的峭度

(2) 數學意義

    矩是物體形狀識別的重要參數指標。在統計學中,矩表徵隨機量的分佈。如一個“二階矩”在一維上可測量其“寬度”,在更高階的維度上由於其使用於橢球的空間分佈,我們還可以對點的雲結構進行測量和描述。其他矩用來描述諸如與均值的偏差分佈情況(偏態),或峯值的分佈情況(峯態)

定義在實數域的實函數相對於值c的n階矩爲:

      \mu '_n=\int_{-\infty}^{\infty} (x-c)^n \,f(x)\,dx
如果點表示概率密度,則第零階矩表示總概率(即1),1,2,3階矩依次爲以下三項。數學中的概念與物理學中矩的概念密切相關。

  • 期望 
    隨機變量的期望定義爲其一階原點矩:

    E(x)=\int_{-\infty}^{\infty} x\,f(x)\,dx

    在方差等定義中,期望也成爲隨機變量的“中心”。 
    顯然,任何隨機變量的一階中心據爲0。 
    對於以下二階及更高階的矩,通常使用中心矩(圍繞平均值c的矩,均值是一階矩),而不是原點矩,因爲中心矩能更清楚的體現關於分佈形狀的信息。

  • 方差 
    隨機變量的方差定義爲其二階中心矩:

    Var(x)=\int_{-\infty}^{\infty} [x-E(x)]^2 \,f(x)\,dx

        歸一化矩 

        歸一化n階中心矩或者說標準矩,是n階中心矩除以標準差 σnσn,歸一化n階中心矩爲

Var(x)=\int_{-\infty}^{\infty} [x-E(x)]^2 \,f(x)\,dx


這些歸一化矩是無量綱值,表示獨立於任何尺度的線性變化的分佈。舉個栗子,對於電信號,一階矩是其DC(直流)電平,二階矩與平均功率成比例。
  • 偏態 
    隨機變量的偏態(衡量分佈不對稱性)定義爲其三階中心矩:

    S(x)=\int _{-\infty }^{\infty }[x-E(x)]^{3}\,f(x)\,dx


    需要注意,任何對稱分佈偏態爲0,歸一化三階矩被成爲偏斜度,向左偏斜(分佈尾部在左側較長)具有負偏度(失效率數據常向左偏斜,如極少量的燈泡會立即燒壞),向右偏斜分佈(分佈尾部在右側較長)具有正偏度(工資數據往往以這種方式偏斜,大多數人所得工資較少)。

  • 峯度 
    一般隨機變量的峯度定義爲其四階中心矩與方差平方的比值再減3,減3是爲了讓正態分佈峯度爲0,這也被稱爲超值峯度:

    K(x)=\frac{\int _{-\infty }^{\infty }[x-E(x)]^{4}\,f(x)\,dx}{\sigma^2}-3


    峯度表示分佈的波峯和尾部與正態分佈的區別,峯度有助於初步瞭解數據分佈的一般特徵。 
    完全符合正態分佈的數據峯度值爲0,且正態分佈曲線被稱爲基線。如果樣本峯度顯著偏離0,就可判斷此數據不是正態分佈。

2.協方差矩陣

(1)定義 

  

 (2)對協方差矩陣的進一步探討:

    首先我們以二維正態正態隨機變量(X1,X2),它的概率密度可以轉化爲向量形式:

    

         

    同樣,該式子推廣到n維正態分佈一樣適用,如下所示。

    令向量x是一個服從均值向量爲\mu,協方差矩陣爲C的多元正態分佈,那麼有:

               p(x) \propto exp(-\frac{1}{2}x^TC^{-1}x)

    假設現在向量x=(x1,x2),x1和x2的方差均爲1,那麼可以用單位矩陣(identity matrix) I作爲協方差矩陣,則生成的若干個隨機數如圖1所示:

圖1 標準的二元正態分佈

    在生成的若干個隨機數中,每個點的似然(likelihood, 即可能性大小)爲

              L(x) \propto exp(-\frac{1}{2}x^Tx)

    對圖1中的所有點考慮一個線性變換(linear transformation): t = Ax ,我們能夠得到圖2.

圖2. 經過線性變換的二元正態分佈,先將圖1的縱座標壓縮0.5倍,再將所有點逆時針旋轉30度得到

     在線性變換中,矩陣A被稱爲變換矩陣(transformation matrix),爲了將圖1中的點經過線性變換得到我們想要的圖2,其實我們需要構造兩個矩陣:

  • 尺度矩陣(scaling matrix):

              \begin{bmatrix} s_{x_1} & 0 \\ 0 & s_{x_2} \end{bmatrix}

  • 旋轉矩陣(rotation matrix):

              \begin{bmatrix} cos(\theta) & -sin(\theta) \\ sin(\theta) & cos(\theta) \end{bmatrix}

    其中, \theta 爲順時針旋轉的度數

    變換矩陣、尺度矩陣和旋轉矩陣三者的關係式:
         A = RS

    t 是x經過線性變換的結果,可以說t是x的一個映射,那t的分佈又是什麼樣子的呢?

    t = AX\\...\quad x = A^{-1}x\\...\quad L(t)\propto exp(-\frac{1}{2}(A^{-1}t)^T(A^{-1}t))\\...\quad L(t)\propto exp(-\frac{1}{2}t^T(AA^T)^{-1}t)

    我們看到這時t的協方差矩陣是AA^T, 這裏很清楚地顯示出t的協方差矩陣跟線性變換A息息相關,假設原始協方差矩陣爲I,那麼經過線性變換A之後的協方差矩陣變成了AA^T

    回到我們已經學過的線性代數內容,對於任意對稱矩陣 \sum ,存在一個特徵值分解(eigenvalue decomposition, EVD)

           \Sigma = U\Lambda U^T

    其中,\Lambda的每一列都是相互正交的特徵向量,且是單位向量,滿足 U^TY=I ,\Lambda對角線上的元素是從大到小排列的特徵值,非對角線上的元素均爲0。

    當然,這條公式在這裏也可以很容易地寫成如下形式:

          \Sigma = (U\Lambda^{1/2})(U\Lambda^{1/2})^{T}=AA^T

    其中,A = UA^{1/2},   這跟A = RS是一致的,即經過特徵值分解,我們得到:

    U= R = \begin{bmatrix} cos(\theta) & -sin(\theta) \\ sin(\theta) & cos(\theta) \end{bmatrix}

    \Lambda = SS^T=\begin{bmatrix} s_{x_1}^2 & 0 \\ 0 & s_{x_2}^2 \end{bmatrix}

    進一步,我們發現協方差矩陣的特徵向量和線性變換A中的旋轉變換相關,協方差矩陣的特徵值和線性變換A中的尺度變換相關。換句話說,多元正態分佈的概率密度是由協方差矩陣的特徵向量控制旋轉(rotation)特徵值控制尺度(scale),除了協方差矩陣,均值向量會控制概率密度的位置,在圖1和圖2中,均值向量爲 0 ,因此,概率密度的中心位於座標原點。

五、參考資料

【1】《概率論與數理統計》浙大第四版

【2】https://zhuanlan.zhihu.com/p/37609917

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章