統計學習方法 第6章 邏輯斯諦迴歸與最大熵模型(1)

統計學習方法 第6章 邏輯斯諦迴歸與最大熵模型(1)

邏輯斯諦分佈

設X是連續隨機變量,X服從邏輯斯諦分佈是指X具有下列分佈函數和密度函數:

其中μ爲位置參數,γ爲形狀參數。

邏輯斯諦分佈的密度函數和分佈函數:

二項邏輯斯諦迴歸模型

二項邏輯斯諦迴歸模型是如下的條件概率分佈:

對於給定的輸入實例x,求得P(Y=1|x)和P(Y=0|x),比較兩個條件概率值的大小,將實例x分到概率值較大的一類。

方便起見,將權值向量和輸入向量擴充,即
w=(w(1),w(2),…,w(n),b)
x=(x(1),x(2),…,x(n),1)

此時邏輯斯諦迴歸模型爲:

一個事件的機率是指事件發生的概率與不發生的概率的比值。若事件發生概率爲p,則其對數機率爲:

對邏輯斯諦迴歸而言:

即輸出Y=1的對數機率是輸入x的線性函數。

參數估計

可以應用極大似然估計法估計模型參數。設:

似然函數爲:

對數似然函數:

對L(w)求極大值,得到w的估計值。

這樣問題就變成了以對數似然函數爲目標函數的最優化問題,通常採用梯度下降法和擬牛頓法。

最大熵原理

假設離散隨機變量X的概率分佈是P(X),則其熵是:

熵滿足:

最大熵原理是概率模型的學習的一個準則,認爲在所有可能的概率模型中,熵最大的模型是最好的模型。

最大熵原理認爲要選擇的概率模型首先需滿足約束條件,在沒有更多信息的情況下,那些不確定的部分是等可能的。

最大熵模型

給定訓練數據集,可以確定聯合分佈P(X,Y)的經驗分佈和邊緣分佈P(X)的經驗分佈:

其中v表示出現頻數,N表示樣本容量。

用特徵函數f(x,y)描述輸入x和輸出y之間的某一個事實:

特徵函數f(x,y)關於經驗分佈

的期望值:

特徵函數f(x,y)關於模型P(Y|X)與經驗分佈

的期望值:

若模型能夠獲取訓練數據中的信息,即可假設這兩個期望相等:

將該式作爲模型學習的約束條件。

假設所有滿足約束條件的模型集合爲:

定義在條件概率分佈P(Y|X)上的條件熵爲:

則模型集合C中條件熵H(P)最大的模型稱爲最大熵模型。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章