關於GMM中的數學基礎

小白一枚,接觸到GMM(Gaussian mixture model,高斯混合模型),遇到很多概率論和數理統計的知識,在此記錄,如有錯誤,歡迎指正,希望大家多多交流,共同進步。

  1. 隨機變量
    定義:設隨機試驗的樣本空間爲S={e}, X=X(e)是定義在樣本空間S上的實值單值函數。稱X=X(e)爲隨機變量。
    理解:樣本空間中的每一個樣本都對應着一個數。

  2. 離散型變量(或取值個數有限的變量):取值可一一列舉,且總數是確定的,如投骰子出現的點數(1點、2點、3點、4點、5點、6點)。
    (亦有老師說,離散型變量是有限個變量或無限可列個變量(例如幾何級數))

  3. 連續型變量(或取值個數無限的變量):取值無法一一列舉,且總數是不確定的,如所有的自然數(0、1、2、3……)。
    亦有定義是一個或多個區間

  4. 離散型變量和連續型變量比較
    離散型變量取某個值xi的概率P(xi)是個確定的值(雖然很多時候我們不知道這個值是多少),即P(xi)≠0:例如,投一次骰子出現2點的概率是P(2)=1/6。

    連續型變量取某個值xi的概率P(xi)=0:對於連續型變量而言,“取某個具體值的概率”的說法是無意義的,因爲取任何單個值的概率都等於0,只能說“取值落在某個區間內的概率”,或“取值落在某個值鄰域內的概率”,即只能說P(a<xi≤b),而不能說P(xi)。 爲什麼是這樣?且看下例:
      例如,從所有自然數中任取一個數,問這個數等於5的概率是多少?從所有的自然數中取一個,當然是有可能取到5的,但是自然數有無窮多個,因此取到5的概率是1/∞,也就是0。
      又如在一個區間[0,1],我往區間[0,1]上扔石子的概率一定是1。利用反證法:假設P(0.5)=0.01,那麼在這個區間上是有無數個點的,無數點的概率加起來一定是大於1的,與事實想矛盾,證明在區間上一點的概率是0。

    根據前面的例子可知:在連續型變量中:概率爲0的事件是有可能發生的,概率爲1的事件不一定必然發生。

  5. 概率分佈:給出了所有取值及其對應的概率(少一個也不行),只對離散型變量有意義。例如:
    概率分佈

  6. 概率函數:用函數形式給出每個取值發生的概率,P(x)(x=x1,x2,x3,……),只對離散型變量有意義,實際上是對概率分佈的數學描述。

概率分佈和概率函數只對離散型變量有意義,那如何描述連續型變量呢?
答案就是“概率分佈函數F(x)”和“概率密度函數f(x)”,當然這兩者也是可以描述離散型變量的。

  1. 概率分佈函數F(x)給出取值小於某個值的概率,是概率的累加形式,即:
    F(xi)=P(x<xi)=sum(P(x1),P(x2),……,P(xi))(對於離散型變量)或求積分(對於連續型變量,見後圖)。
    概率分佈函數F(x)的性質

  2. 概率密度函數:給出了變量落在某值xi鄰域內(或者某個區間內)的概率變化快慢,概率密度函數的值不是概率,而是概率的變化率,概率密度函數下面的面積纔是概率
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    這裏注意,連續型隨機變量X的概率跟端點沒有關係。

    **連續型變量的概率、概率分佈函數、概率密度函數之間的關係(以正態分佈爲例)**如下圖:
      對於正態分佈而言,x落在u附近的概率最大,而F(x)是概率的累加和,因此在u附近F(x)的遞增變化最快,即F(x)曲線在(u,F(u))這一點的切線的斜率最大,這個斜率就等於f(u)。x落在a和b之間的概率爲F(b)-F(a)(圖中的紅色小線段),而在概率密度曲線中則是f(x)與ab圍成的面積S。如下圖所示:

在這裏插入圖片描述

  1. 協方差
    在這裏插入圖片描述
    均值描述的是樣本集合的中間點
    標準差給我們描述的則是樣本集合的各個樣本點到均值的距離之平均
    方差(variance)是衡量隨機變量或一組數據時離散程度的度量。

    我們應該注意到,標準差和方差一般是用來描述一維數據的,但現實生活我們常常遇到含有多維數據的數據集。協方差就是一種用來度量兩個隨機變量關係的統計量。
    在這裏插入圖片描述
    當 cov(X, Y)>0時,表明 X與Y 正相關;(X 越大 Y 也越大, X 越小 Y 也越小,這種情況,我們稱爲“正相關”。)

    當 cov(X, Y)<0時,表明X與Y負相關;(X 越大Y 反而越小,X 越小 Y 反而越大,這種情況,我們稱爲“負相關”。)

    當 cov(X, Y)=0時,表明X與Y不相關。(既不是X 越大Y 也越大,也不是 X 越大 Y 反而越小,這種情況我們稱爲“不相關”。)

    協方差也只能處理二維問題,那維數多了自然就需要計算多個協方差,就要用到協方差矩陣
    下面以三維爲例子:
    在這裏插入圖片描述
    可見,協方差矩陣是一個對稱的矩陣,而且對角線是各個維度上的方差

  2. 極大似然估計
    這裏不對極大似然估計做過多的定理解釋和推導,只舉兩個例子來理解極大似然估計。

    例一,有兩個完全一樣的箱子,箱子甲中有99個黑球,1個白球,箱子乙中有99個白球,1個黑球。隨意取一個球,結果爲黑球,問黑球是從哪個箱子中取出的?
    關於這個例子,人們猜測是從甲箱子中取出的。因爲同樣是100個球,但是甲箱子中有99個黑球,而乙箱子中有1個黑球。所以猜測更有可能是從甲箱子中取的。這種 想法就是“最大似然原理”
    例二,一個獵人和一個從未打過獵的普通人一起去森林打獵,兩人看到一隻兔子,一聲槍響,兔子死了。問是誰打死的兔子?
    關於這個例子,人們的猜測是獵人打死的兔子。因爲獵人經常打獵,而普通人沒有打過獵。這種猜測就是“最大似然原理”

    總結起來,最大似然估計的目的就是:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。

    原理:極大似然估計是建立在極大似然原理的基礎上的一個統計方法,是概率論在統計學中的應用。極大似然估計提供了一種給定觀察數據來評估模型參數的方法,即:“模型已定,參數未知”。通過若干次試驗,觀察其結果,利用試驗結果得到某個參數值能夠使樣本出現的概率爲最大,則稱爲極大似然估計。

    求最大似然估計量的一般步驟

    (1)寫出似然函數;

    (2)對似然函數取對數,並整理;

    (3)求導數;

    (4)解似然方程。

參考文獻:

基本概念
https://www.jianshu.com/p/0cfc3204af77
極大似然估計
https://blog.csdn.net/qq_39355550/article/details/81809467
協方差
https://blog.csdn.net/Russell_W/article/details/85118486
https://blog.csdn.net/GoodShot/article/details/79940438

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章