統計學習方法 第6章 邏輯斯諦迴歸與最大熵模型(1)
邏輯斯諦分佈
設X是連續隨機變量,X服從邏輯斯諦分佈是指X具有下列分佈函數和密度函數:
其中μ爲位置參數,γ爲形狀參數。
邏輯斯諦分佈的密度函數和分佈函數:
二項邏輯斯諦迴歸模型
二項邏輯斯諦迴歸模型是如下的條件概率分佈:
對於給定的輸入實例x,求得P(Y=1|x)和P(Y=0|x),比較兩個條件概率值的大小,將實例x分到概率值較大的一類。
方便起見,將權值向量和輸入向量擴充,即
w=(w(1),w(2),…,w(n),b)
x=(x(1),x(2),…,x(n),1)
此時邏輯斯諦迴歸模型爲:
一個事件的機率是指事件發生的概率與不發生的概率的比值。若事件發生概率爲p,則其對數機率爲:
對邏輯斯諦迴歸而言:
即輸出Y=1的對數機率是輸入x的線性函數。
參數估計
可以應用極大似然估計法估計模型參數。設:
似然函數爲:
對數似然函數:
對L(w)求極大值,得到w的估計值。
這樣問題就變成了以對數似然函數爲目標函數的最優化問題,通常採用梯度下降法和擬牛頓法。
最大熵原理
假設離散隨機變量X的概率分佈是P(X),則其熵是:
熵滿足:
最大熵原理是概率模型的學習的一個準則,認爲在所有可能的概率模型中,熵最大的模型是最好的模型。
最大熵原理認爲要選擇的概率模型首先需滿足約束條件,在沒有更多信息的情況下,那些不確定的部分是等可能的。
最大熵模型
給定訓練數據集,可以確定聯合分佈P(X,Y)的經驗分佈和邊緣分佈P(X)的經驗分佈:
其中v表示出現頻數,N表示樣本容量。
用特徵函數f(x,y)描述輸入x和輸出y之間的某一個事實:
特徵函數f(x,y)關於經驗分佈
的期望值:
特徵函數f(x,y)關於模型P(Y|X)與經驗分佈
的期望值:
若模型能夠獲取訓練數據中的信息,即可假設這兩個期望相等:
將該式作爲模型學習的約束條件。
假設所有滿足約束條件的模型集合爲:
定義在條件概率分佈P(Y|X)上的條件熵爲:
則模型集合C中條件熵H(P)最大的模型稱爲最大熵模型。