機器學習(十四)——證明softmax迴歸屬於GLM模型族

原文:http://cs229.stanford.edu/notes/cs229-notes1.pdf

讓我們再看一個GLM的例子。考慮一個分類問題,其中響應變量y可以接受任意一個k值,因此y∈{1,2,…,k}。例如,與其將電子郵件分爲垃圾郵件或非垃圾郵件--垃圾郵件--這可能是二進制分類問題--不如將其分爲三類,例如垃圾郵件, 個人郵件和與工作有關的郵件。響應變量仍然是離散的,但現在可以接受兩個以上的值。因此,我們將根據多項式分佈將其建模爲分佈。

我們可以導出一個GLM來模擬這類多項式數據。爲此,我們首先將多項式表示爲指數族分佈。

要參數化k個可能的結果上的多項式,可以使用k參數φ1,…,φk來指定每個結果的概率。然而,這些參數將是多餘的,或者更正式地說,它們將不是獨立的。(因爲知道任何k−1的φi唯一決定最後一個,因爲它們必須滿足)。因此,我們將只含k−1個參數的多項式參數化爲φ1,…,φk−1,其中φi=p(y=i;φ)和。爲方便起見,我們還會讓,但我們應記住這不是一個參數,並且它完全由φ1,…,φk−1指定。爲了將多項式表示爲指數族分佈,我們將定義如下:


與前面的例子不同,這裏沒有T(Y)=y;並且,T(Y)現在是k-1維向量,而不是實數。我們將寫來表示向量T(Y)的第i元素。我們再介紹一個非常有用的符號。如果指示函數1{·}的參數爲真,則其值爲1,否則爲0(1{True}=1,1{false}=0)。例如,1{2=3}=0,1{3=5−2}=1。因此,我們也可以寫出T(Y)和y之間的關係。(在你繼續閱讀之前,請確保你明白爲什麼這是真的!)。此外,我們有

我們現在可以證明多項式是指數族的一個成員。我們有


其中


這就完成了多項式作爲指數族分佈的公式化。

給出了鏈接函數(i=1,…,k)


爲了方便起見,我們還定義了。爲了反演鏈接函數並導出響應函數,我們有


這意味着可以推導出,將這代入方程(7)可以給出的響應函數


這是從η到φ的函數映射,這個函數叫做softmax函數。

爲了完成我們的模型,我們使用了前面給出的假設3,即與x是線性相關的。因此,有,其中是我們模型的參數。爲了方便起見,我們還可以定義,以便,就像前面給出的那樣。因此,我們的模型假設給定x,y的條件分佈是


該模型適用於y∈{1,…,k}的分類問題,稱爲Softmax迴歸。這是Logistic迴歸的推廣。

我們的假設會產生



換句話說,我們的假設將輸出p(y=i|x;θ)對i=1,…,k的每一個值的估計概率。

最後,討論參數擬合。類似於我們對普通最小二乘和Logistic迴歸的原始推導,如果我們有一組訓練的m個例子,並且想學習這個模型的參數,我們將從記錄對數似然開始


爲了得到上面的第二行,我們使用了方程(8)中給出的p(y|x;θ)的定義。利用梯度上升法或牛頓法等方法,利用最大似然(ℓ,θ)方法,得到參數的最大似然估計。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章