4.3 Probabilistic Discriminative Models
這一節中,介紹直接對p(ck|x)建模的判別模型對x進行分類。直接對p(ck|x)進行建模所要擬合的參數要比生成模型少很多,另外當對x|ck的分佈假設不太靠譜的時候,生成模型的效果也會很差。
4.3.1 Fixed basis functions
之前討論的算法多是在wx+w0的情況下,但這些算法對於對x做一些非線性變化之後仍然適用,而使用這樣的非線性變化也有很多的侷限性。
4.3.2 Logistic Regression
根據logistic function直接對C|phi(x)進行建模,有:
明顯的,參數要比生成模型少了很多。可以得到似然函數:
對其取log形式,再取一個符號,最大似然變error function,即我們要最小化的目標,對error function求關於w的偏導數,得到了與最小二乘一樣的update rule。然而,這個update rule和最小二乘不同,概率解釋就不一樣,而且其中的yn,一個是w*phi,另一個則是logistic function。
下面作者又批評了最大似然的方法,好像是說當w->無窮的時候,最大死然只有加入了正則項或者利用MAP才能避免logistic稱爲heaviside的情況,不知道這個w->無窮是哪來的,最後一段看的不是特別明白。
4.3.3 Iterative reweighted least squares
這一節其實主要是闡述了用Newton方法更新w。
4.3.4 Multiclass logistic regression
擴展logistic到K>2,即softmax。
4.3.5 Probit Regression
4.3.6 Canonical link functions
4.3.5開始論述x|ck不取指數族分佈這樣的簡單分佈了,而是開始取高斯混合分佈等比較複雜的分佈。4.4,4.5是Bayesian觀點下的分類模型,這兩部分,10頁的內容也暫且留下,需要複習一些其它東西,等回過頭來再看的時候再補上。