機器學習第二課

    上一個博文,我們講了Linear Regression, gradient descent, normal equations和Locally weighted linear regression,這次博文我們重點來學習Logistic regression,這是機器學習非常重要的一種迴歸模型,可以說是對Linear Regression的一種離散化表示,對二分類的一種常用方法。

    回顧我們上個博文中講到的Linear Regression模型,image ,給定input x,h(x)是其預測值,由於Linear Regression是一個連續的模型,而二分類問題是一個離散的模型,給定input,其輸出要麼是negative class要麼是positive class。於是我們想,能不能再Linear Regression的基礎上改進下,是的我們的連續的迴歸模型變成一個二分類的模型,我們是這樣做的。引入函數:image使得預測h(x)如下:

                                                                       image

    這裏的image稱爲logistic function或者sigmoid function。其圖像如下:

                                                             image

    由圖可以知道對於任何給定的input X, 我們得到的預測值都是(0~1)之間, 這時候我們只需要把預測的值拿來和0.5比較就能分類了,當output > 0.5 則判斷爲positive,當output < 0.5 則是negative。這樣我們就通過sigmoid函數把一個連續的迴歸模型變成了一個二分類的問題。下面來講講實際我們是怎樣來更新參數的:

 

    Notice that 當Z趨向於正無窮時函數值爲1,當Z趨向於負無窮時函數值爲0,。image

    其中:

                                                                    image

    Note that this can be written more compactly as:

                                                                   image

     同樣給定input X我們可以利用likelihood(我前面的博文有講解:http://www.cnblogs.com/txg198955/p/4063541.html

                                                                   image

    像以前一樣,我們來maximum 似然函數的log形式:

                                                                 image

    我們對其求對數:

                                                                image

   上一步我們用到了sigmoid函數的一個性質:image, 由梯度下降法我們對image的更新就變成了下面這樣:

                                                                        image

    這個更新參數和我們之間的線性迴歸模型的參數有點像但又不完全一樣,因爲我們這裏的預測函數式非線性的,這樣我們就能通過更新參數image,從而解決這個二分類的問題了。好了,講到這裏大家對logistic regression的運作應該就比較清楚了吧。接下來我們來講一種優化算法-牛頓法(相對於梯度下降法),我們還是利用上面的例子來說明。由上面的分析,我們需要計算最大似然函數,這裏我們轉換求似然函數對數導數的最大值。我們可以利用牛頓法來求似然函數對數導數的最大值,也就是image,這裏的image就是似然函數對數的導數,具體操作如下所示:

    Newton’s method performs the following update:

                                                                                image

    下面是Newton’s method,theta的更新圖:

                      image

    初始的theta在4.5位置,通過牛頓法不斷更行,不斷向image靠近,通過有限的迭代次數我們就可以得到使image的theta。由於在logistic regression中我們的theta是一個向量,所以我們也應該用向量的形式來表示牛頓法,於是我們可以得到下面的更新式子:

                                                                                    image

    Here, ∇θℓ(θ) is, as usual, the vector of partial derivatives of ℓ(θ) with respect to the θi’s; and H is an n-by-n matrix (actually, n + 1-by-n + 1, assuming that we include the intercept term) called the Hessian, whose entries are given by:

   

                                                                                          image

    由於我們是要求似然函數對數導數的最小值,然後牛頓法中又有一次求導運算,所以我們的image要求二次偏導。OK到這裏我們隊牛頓法也有了一個初步的認識,Newton’s method

和gradient descent method都是一種優化算法,Newton’s method 的下降速度較梯度下降更快。

 

    接下來我們來講一下GLM(Generalized Linear Models),首先說明一下我們接觸到的很多預測模型都是GLM,比如伯努利分佈和高斯分佈。講之前我們先來了解下指數族分佈的概念。如果給定一個分類模型,能寫成下面的形式,則稱之爲image

                                                                                   image

     Here, η is called the natural parameter (also called the canonical parameter) of the distribution; T(y) is the sufficient statistic (for the distributions we consider, it will often be the case that T(y) = y); and a(η) is the log partition function.

    首先我們來證明爲什麼伯努利分佈是一個GLM,伯努利分佈的概率分佈可以寫成如下:

                                                                     image

    當我們的各個參數取值如下時,伯努利分佈就變成了一個GLM

                                                                    image

    同樣高斯分佈也是一個GLM

                                                                       image

    其中各參數取值如下:

                                                                      image

 

 

   我們可以推(怎麼推出我也不知道)出當一個模型要成爲GLM時,需要滿足下面三個條件(這裏直接貼出來了,寫了一個晚上手都寫痛了):

                                          image

                                         image

    這樣我們就可以利用GLM的這三個性質來推出Ordinary Least Squares和Logistic Regression。

    首先來推出Ordinary Least Squares,由上面的分析可知:image是一個GLM,並且image,由定理的第二條可知

                                                                        image

    同樣由上面的伯努利分佈滿足GLM可知:

                                                                         image

    這樣我們就利用GLM推出了Ordinary Least Squares和Logistic Regression。接下來我們要講一個更加複雜的GLM模型-Softmax Regression,在做DL訓練的時候我用這個迴歸訓練過分類器,在參數微調精確的情況下,其分類效果比SVM還要好。Softmax Regression其實就是二分類logistic regression模型的一個推廣,推廣到多分類。如何證明Softmax Regression也是一個GLM,過程實在是太複雜,我也懶得細看,這裏直接貼出來大家共同分析:

                                         image

                                         image

                                          image

    好了,到了最後一步大家應該就清楚了,softmax regression其實也是一個GLM,好了今天接觸到了一堆的公式定理,大家消化消化吧!Good Night~~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章