Classification and logistic regression離散型:分類問題

當事件結果取值離散,只有有限個時,不再適合用線性迴歸。假設現在取值只有0,1:我們實際上可以利用這一點,做出更好的預測。

我們選擇假設函數:


至於爲什麼選這個,以後會講到。

如果學過電子技術的話,會發現這個函數g很像階躍函數:它在z小於0時取值近似0,z大於0時近似爲1.


假設函數h的取值介於0-1之間,與其直接把它當作最終結論取值,把它當作概率值更加合適:

我們假設:


實質上,這樣假設是爲了更方便地寫出擬然函數,也就是更方便地得到更新參數θ地方式。

y明顯服從以h函數爲參數的伯努利分佈,那麼:



我們要最大化L函數。

這裏稍微講一個常用技巧:對數化。對於上面這樣由很多項相乘的函數,一般不太容易分析,明顯不如累加函數易於處理。我們又知道,對數函數在其定義域內嚴格遞增,我們對連乘函數套上對數函數後,其最值對應的自變量取值不變。

經過推導:


那麼更新θ的方式爲:


課堂上老師並沒有說明這個h函數到底怎麼用,怎麼預測事件結果,實際上,h函數代表了y=1的概率,那麼我們得到的h>0.5時,就將它歸類爲y=1即可。



發佈了49 篇原創文章 · 獲贊 14 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章