cs229線性迴歸和邏輯迴歸總結

線性迴歸

假設函數(Hypotheses function)

首先應該設計一個假設函數,這個假設函數是用來表示一個線性迴歸的問題,不是一個單獨的函數,而是一個函數集合,包含很多個有可能可以很好的表示這個線性迴歸問題的函數,也就是通常所說的model。一般來講線性迴歸的假設函數我們表示成這個樣子:

h_{\theta }\left ( x \right )=\theta _{1}x_{1}+\theta _{2}x_{2}+...+b

其中 x_i 是第i個特徵,\theta_i 是第i個特徵的權重,b 是bias偏移量。爲了將這個式子更加簡化,可以將 b 用 \theta_0x_0 代替,其中  x_0 = 1,因此我們可以寫成向量相乘的形式:

h\left( x \right) =\sum_{i=0}^n{\theta _ix_i=\theta ^Tx}, x_0=1

其中\thetax都是向量,

\theta =\left[ \begin{array}{l} \theta _0\\ \theta _1\\ \theta _2\\ ...\\ \theta _n\\ \end{array} \right]x=\left[ \begin{array}{l} x_0\\ x_1\\ x_2\\ ...\\ x_n\\ \end{array} \right], x_0=1

以上是線性迴歸的假設函數。

設計好模型後,就應該根據訓練集使 h\left( x \right) 儘可能的接近y,此時的h\left( x;\theta \right)就是最終要找的函數,\theta向量就是所找的目標參數。爲了衡量 h\left( x \right) 與y之間的距離,需要設計一個損失函數表示兩者之間的誤差。

損失函數(Cost function)

假設對於每一個樣例,目標函數與真實的函數之間相差一個誤差\varepsilon ^{\left( i \right)},且這個誤差\varepsilon ^{\left( i \right)}是獨立同分布的(IID:Independently and Identically Distribution),y^{\left( i \right)}=\theta ^Tx^{\left( i \right)}+\varepsilon ^{\left( i \right)}

根據中心極限定理:在適當的條件下,大量相互獨立隨機變量的均值經適當標準化後依分佈收斂於高斯分佈。因此,假設獨立這些誤差服從均值爲0的高斯分佈:\varepsilon ^{\left( i \right)}\thicksim N\left( 0,\sigma ^2 \right)

因此可以寫出高斯分佈的概率密度函數:

P\left( \varepsilon ^{\left( i \right)} \right) =\frac{1}{\sqrt{2\pi}\sigma}e^{\left( -\frac{\left( \varepsilon ^{\left( i \right)} \right) ^2}{2\sigma ^2} \right)}

其中,\varepsilon ^{\left( i \right)}=y^{\left( i \right)}-\theta ^Tx^{\left( i \right)}

因此,P\left( y^{\left( i \right)}|x^{\left( i \right)};\theta \right) =\frac{1}{\sqrt{2\pi}\sigma}\exp \left( -\frac{\left( y^{\left( i \right)}-\theta ^Tx^{\left( i \right)} \right) ^2}{2\sigma ^2} \right)

由於\varepsilon ^{\left( i \right)}獨立同分布,使用極大似然估計法來計算x條件下取到y的最大概率,其中theta是變量,可以寫出極大似然函數:

L\left( \theta \right) =\prod_{i=1}^m{P\left( y^{\left( i \right)}|x^{\left( i \right)};\theta \right) =}\prod_{i=1}^m{\frac{1}{\sqrt{2\pi}\sigma}\exp \left( -\frac{\left( y^{\left( i \right)}-\theta ^Tx^{\left( i \right)} \right) ^2}{2\sigma ^2} \right)}

取對數化簡,取對數後單調性不變,

l\left( \theta \right) =\log L\left( \theta \right) =\sum_{i=1}^m{\left[ \log \frac{1}{\sqrt{2\pi}\sigma}+\log \left( \exp \left( -\frac{\left( y^{\left( i \right)}-\theta ^Tx^{\left( i \right)} \right) ^2}{2\sigma ^2} \right) \right) \right]}=m\log \frac{1}{\sqrt{2\pi}\sigma}-\sum_{i=1}^m{\frac{\left( y^{\left( i \right)}-\theta ^Tx^{\left( i \right)} \right) ^2}{2\sigma ^2}}

可以從化簡結果中看出,除了一個平方項\left( y^{\left( i \right)}-\theta ^Tx^{\left( i \right)} \right) ^2,其他均爲常數,因此使用平方誤差當作損失函數。其中\theta ^Tx^{\left( i \right)}=h_\theta(x^{(i)}),所以損失函數爲,

J\left( \theta \right) =\frac{1}{2}\sum_{i=1}^m{\left( y^{\left( i \right)}-h_{\theta}\left( x^{\left( i \right)} \right) \right) ^2}

其中1/2是爲了後面計算方便化簡。

最優化算法(Optimization algorithm)

  1. 矩陣滿秩時可以直接求解

  2. 矩陣不滿秩時使用一系列最優化算法求解

主要使用了梯度下降算法求解目標函數 J(\theta) 。梯度下降法主要思想是在一點上求梯度,沿梯度的反方向就是下降最快的方向,移動一個小的步長,每次更新\theta和梯度,不斷迭代直到收斂。具體可以看這篇

需要注意的有幾點:

  • 隨機起始點
  • 每次迭代應該同步更新完所有\theta後進行下一次迭代

淺顯的解釋一下爲什麼可以隨機起始點,目標函數是一個二次函數,線性迴歸構成一個線性最小二乘問題,也就是說線性迴歸的代價函數是個凸函數,所以當x是一維的情況時,目標函數是一個開口向上的拋物線,局部最優解就是全局最優解,只有在全局最優解處梯度爲0,因此在任意位置開始梯度下降,一定會穩定收斂於全局最優解。

寫出梯度下降的公式如下:

\theta _j=\theta _j-\alpha \frac{\partial}{\partial \theta _j}J\left( \theta \right)

梯度可化簡爲:

\frac{\partial}{\partial \theta _j}J\left( \theta \right) =2\cdot \frac{1}{2}\left( h_{\theta}\left( x \right) -y \right) \cdot \frac{\partial}{\partial \theta _j}\left( h_{\theta}\left( x \right) -y \right) =\left( h_{\theta}\left( x \right) -y \right) x_j

最終:

\theta _j=\theta _j-\alpha \left( h_{\theta}\left( x^{\left( i \right)} \right) -y^{\left( i \right)} \right) x_{j}^{\left( i \right)}

邏輯迴歸

假設函數(Hypotheses function)

邏輯迴歸與線性迴歸最直觀的區別就是邏輯迴歸的target是離散的數據,對於二分類問題,邏輯迴歸的target取值就是0或1,理論上可以直接用線性迴歸對邏輯迴歸的分類值預測,但是實際上效果非常差,直觀上因爲y只能取到0或1,但是線性迴歸能取到全體實數。因此,選擇了sigmoid函數作爲假設函數,這個函數的作用可以理解爲講輸入的全體實數映射到[0,1]區間內。

g\left( \eta \right) =\frac{1}{1+e^{-\eta}}h_{\theta}\left( x \right) =g\left( \theta ^Tx \right) =\frac{1}{1+e^{-\theta ^Tx}}

圖像如下:

損失函數(Cost function)

根據上面線性迴歸的思路,應該把這個假設函數轉化爲概率,然後利用極大似然估計最大化概率從而學習\theta的值,因此假設:

寫成一個式子可以表示爲:

利用極大似然估計法寫出要最優化的目標,然後取對數化簡:

最優化算法(Optimization algorithm)

至此,得到了待優化的目標函數l(\theta),仍然根據上面線性迴歸的思路,使用梯度下降的思路求解:\theta =\theta +\alpha \nabla _{\theta}l\left( \theta \right)。這裏是加而不是減,是因爲在線性迴歸中最大化l(\theta)轉化爲了最大化一個負平方誤差,也就是最小化一個平方誤差。這裏直接使用的是最大化l(\theta)

因此邏輯迴歸的迭代式爲:\theta _j=\theta _j+\alpha \left( h_{\theta}\left( x^{\left( i \right)} \right) -y^{\left( i \right)} \right) x_{j}^{\left( i \right)}

可以看到邏輯迴歸的迭代式和線性迴歸很像,但是這兩個用的損失函數截然不同,僅僅是化簡完後形式很像而已。線性迴歸用到的是平方誤差,而邏輯迴歸用到的是對數誤差,這從剛剛的推導過程中也可以看出來。

邏輯迴歸和線性迴歸的異同

兩者雖然都叫做迴歸,線性迴歸是用於迴歸問題,而邏輯迴歸用於分類問題,這是最本質的區別。線性迴歸我們是通過假設了真實值與預測模型有一個誤差,y^{\left( i \right)}=\theta ^Tx^{\left( i \right)}+\varepsilon ^{\left( i \right)},然後假設這個誤差服從正態分佈,根據這個誤差項來處理迴歸問題。而邏輯迴歸是因變量服從一個特殊的二項分佈,也就是伯努利分佈,根據模型是根據這個分佈的期望得出,剛好是sigmoid函數,並基於此來預測分類問題,包括爲什麼講假設函數假設爲y=1的概率從而得出後面的極大似然估計,這些在後面對於廣義線性模型的總結中會詳細推導。

我們也可以將邏輯迴歸看做是線性迴歸,p(y=1|x)看作服從正太分佈,我認爲和高斯判別分析法有一些關聯,後面我也會進行推導。同時兩種迴歸都用到了梯度下降的思路去求解\theta,這也是一個共同點。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章