第三週邏輯迴歸與正則化

學完前三週簡要做個總結，梳理下知識框架：

第一講邏輯迴歸Logistic Regression

1.分類問題Classification Problem

for example

->Email: Spam / Not Spam 判斷一封郵件是不是垃圾郵件？

->Online Transaction:Fraudulent(Yes/NO)?判斷某個網絡交易是否是詐騙？

->Tumor:Malignant / Benign?判斷腫瘤是惡性還是良性？

綜上，分類問題就是這樣一類問題：針對某個實際樣本，根據某種標準，判斷它屬於哪一個類別，其最終結果是離散的輸出值。

分類問題在生活中很常見，除了以上的例子外，想對某水體採樣判斷水質的酸鹼性、對某地大氣採樣判斷其空氣污染級別，以上問題的解決都屬於今天我們討論的話題。

2.名次解釋

對於分類classification問題，要構建邏輯迴歸模型去預測，注意：這裏的邏輯迴歸雖然也有‘迴歸’二字，但並不是針對迴歸問題而言，因爲其預測的結果是離散值，所以不要被“迴歸”二字混淆，邏輯迴歸並不屬於迴歸問題。

3.假設函數Hypothesis

分類問題要求Classification: y = 0 or 1

相應地預測結果 h(x) need to be limited to : 0 <= h(x) <= 1

所以，對於邏輯迴歸中的假設函數我們有如下定義（在線性迴歸模型上進行改進）：

當樣本預測結果h(x)>=0.5時，預測輸出值y=1;若h(x)<0.5時，預測輸出值y = 0;

所以這使得假設函數h(x)有這樣的物理意義：h(x)表徵預測結果y=1的概率；

4.決策邊界Decision boundary

決策邊界是假設函數h(x)的一個屬性，當通過訓練集擬合出了一條曲線-----即x對應的θ確定，那麼相應的決策邊界也就確定。

決策邊界就是θ^(T)x=0的曲線,曲線的兩側分別對應y=0 or 1。根據一個樣本落在曲線的哪一側，從而對結果進行決策。

4.代價函數J(θ)

代價函數J如果採用線性迴歸模型中的平方誤差函數定義，得到的J是一個non-convex(凸)，採用梯度下降不易得到全局最優解，這裏我們採用概率論中的極大似然估計對J做一個凸優化，有：

整理可得：

代價函數雖然重新定義，但是更符合邏輯問題的預測情況，當y=1時：若h(x)->1，cost->0;若h(x)->0,cost->

∞，代價函數J很好的體現了“代價”這一含義。

★★★5.邏輯迴歸模型Logistic Regression Model

與線性迴歸模型的區別：y = 0 or 1

0 <= h(x) <= 1

①假設/擬合函數Hypothesis:

②參數Parameter:

③代價函數Cost Function:

④目標Goal:

對於邏輯迴歸模型Logistic Regression Model的求解主要有：梯度下降和高級優化算法。

6.梯度下降Gradient Decent

梯度下降算法在第二週的線性迴歸模型中有詳細描述，思路就是沿着J(θ)偏導數的方向以α的步伐下降，同時同步更新θ，迭代下去直至J(θ)收斂。

對於Logistic Regression由於J(θ)有變化，梯度下降算法雖然在原理上沒有任何變化，就其表達形式我們也重新做一下推導：

◆對於θ的更新第二個等號的後面表達式的由來，就是對J(θ)求偏導，筆者曾經詳細的推導過，利用了一點g(z)函數的性質和適當的換元，感興趣的讀者可以試着推到下，最終你會驚人的發現：邏輯迴歸在改變J的前提下梯度下降算法的表達形式與Linear Regression表達形式出奇的一致:-)，當然，h(x)的形式不同啦！QAQ

7.高級優化算法Advanced Optimization

Andrew Ng在這裏講到了三種高級優化算法，它們的高級是指相對於梯度下降算法而言，有更快的收斂速度和自適應性，無需人工選擇學習速率α，缺點就是太複雜。

Andrew Ng坦言，對於這些高級優化算法，重要的是成功應用這些算法於不同的學習問題，而不太需要真正理解這些算法的內環間在做什麼。