機器學習——邏輯迴歸

原創

2018-08-26 09:29

邏輯迴歸

1.1 問題及定義

邏輯迴歸主要是用來解決二分類的問題，例如判斷一封電子郵件是否是垃圾郵件，判斷一次金融交易是否是欺詐，判斷一個腫瘤是惡性的還是良性的等等。
(注意：邏輯迴歸是分類算法，線性迴歸是迴歸算法)
爲此，邏輯迴歸的輸出應當是０－１之間。
邏輯迴歸模型的假設是：

\begin{matrix} (1) & h_{θ} (x) = g (θ^{T} x) \end{matrix}

其中，

x

表示特徵向量，

x = (x_{0}; x_{1}; x_{2}; . . .; x_{n})

，

g

表示邏輯迴歸(logistic fucntion)函數，這是一個常用的Ｓ型函數(sigmoid function)，公式爲

g (z) = \frac{1}{1 + e^{- z}}

. 該函數的圖像爲：

合起來我們得到邏輯迴歸模型的假設：

\begin{matrix} (2) & h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} x}} \end{matrix}

這裏

h_{θ}

的作用是對於給定的輸入變量，根據選擇的參數計算出變量＝１的可能性，即

h_{θ} (x) = P (y = 1 | x; θ)

.
例如，如果對於給定的

x

,通過已經確定的參數計算得出

h_{θ} (x) = 0.7

，則表示有70%的機率

y

爲正類，相應的

y

爲負類的概率爲

1 - 0.7 = 0.3

1.2 代價函數

我們怎麼去擬合邏輯迴歸模型的參數呢？
我們首先定義一些需要使用的變量，訓練集合 $= {(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), (x^{(3)}, y^{(3)}), . . ., (x^{(m)}, y^{(m)})}$ ， $m$ 爲訓練集合大小，訓練樣本 $x = (x_{0}; x_{1}; x_{2}; . . .; x_{n})$ ， $x_{0} = 1, y \in {0, 1}$ .
我們應該使用怎樣的代價函數呢？在線性迴歸中我們使用的是均值方差函數，這裏如果使用均值方差可以嗎？答案是不行的，因爲將 $h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} x}}$ 代入到這樣的代價函數中時，將會得到一個非凸函數(non-convex function)。如下圖：

那麼意味着這樣的代價函數有很多的局部最小值，這降影響梯度下降尋找全局最小值。
因此，我們重新定義邏輯迴歸的代價函數爲：

其中，

我們使用圖表來理解這個代價函數， $h_{θ} (x)$ 與 $C o s t (h_{θ} (x), y)$ 之間的關係如下圖，

這樣構建的 $C o s t (h_{θ} (x), y)$ 函數的特點是：當實際的 $y = 1$ 且 $h_{θ}$ 也爲１時，誤差爲０，當 $ｙ＝１$ 但是 $h_{θ}$ 不爲１的時候，誤差隨着 $h_{θ}$ 的增大而減小；當實際的 $y = 0$ 時且 $h_{θ}$ 也爲０的時候，誤差爲０，當 $y = 0$ 但是 $h_{θ}$ 不爲０的時候，誤差隨着 $h_{θ}$ 的增大而增大。(個人感覺就是使預測值更接近真實值，還有這裏用的是最大似然估計的方法也能理解推導，參考logistic迴歸算法)
將構建的 $C o s t (h_{θ} (x), y)$ 簡化如下：

代入代價函數得到：

然後我們就可以使用梯度下降的算法來求得能使代價函數最小的參數了，算法爲：

求導後得到：

可以證明，這樣得到的代價函數是凸的，沒有局部最優值！（涉及到複雜的凸性分析，感興趣的話可以去查閱相關資料）
接着，每次我們就可以使用梯度下降算法更新參數，最小化代價函數，直至收斂！
仔細看一下這個參數更新公式，我們發現和線性迴歸的參數更新公式形式完全一樣，不過注意兩個算法的假設函數 $h_{θ} (x)$ 不一樣，因此其實是兩個完全不同的東西！

1.2.1邏輯迴歸推導

上面省略了求導步驟，這裏我詳細寫一下過程：
在這之前，先熟悉一下sigmoid函數的求導規律，對於sigmoid函數 $s (x) = \frac{1}{1 + e^{- x}}$ ，其導數爲 $s^{'} (x) = s (x) (1 - s (x))$ (自己證明).
要求對 $θ_{j}$ 的導數，

\frac{\partial J (θ)}{\partial θ_{j}} = \frac{\partial J (θ)}{\partial h_{θ} (x^{(i)})} \cdot \frac{\partial h_{θ} (x^{(i)})}{\partial θ_{j}}

所以，第二部分導數爲

\frac{\partial h_{θ} (x^{(i)})}{\partial θ_{j}} = \frac{\partial h_{θ} (x^{(i)})}{\partial (θ^{T} x^{(i)})} \cdot \frac{\partial (θ^{T} x^{(i)})}{\partial θ_{j}} = h_{θ} (x^{(i)}) [1 - h_{θ} (x^{(i)}))] x_{j}

第一部分導數爲

\frac{\partial J (θ)}{\partial h_{θ} (x^{(i)})} = - \frac{1}{m} [\sum_{i = 1}^{m} \frac{y^{(i)}}{h_{θ} (x^{(i)})} + \frac{y^{(i)} - 1}{1 - h_{θ} (x^{(i)})}] = - \frac{1}{m} [\sum_{i = 1}^{m} \frac{y^{(i)} (1 - h_{θ} (x^{(i)}) + (y^{(i)} - 1) h_{θ} (x^{(i)})}{h_{θ} (x^{(i)}) (1 - h_{θ} (x^{(i)}))}] = - \frac{1}{m} [\sum_{i = 1}^{m} \frac{y^{(i)} - h_{θ} (x^{(i)})}{h_{θ} (x^{(i)}) (1 - h_{θ} (x^{(i)}))}]

所以最後的導數爲

\frac{\partial J (θ)}{\partial θ_{j}} = \frac{1}{m} [\sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}]

仔細看一下這個求導後結果，在

i = 1

到

m

上求和，其實就是預測誤差乘以

x_{j}^{(i)}

1.3多分類問題

上面講到邏輯迴歸算法是用來解決二分類問題而設計的，那麼如果碰到多分類問題呢？
沒錯，我們可以採用“一對多的思想”，可以先將多個類中的一個類作標記爲正類，然後將其他所有類作爲負類，以此類推，訓練一系列的二分類器，最後預測時，我們將所有的分類器都運行一遍，對於每一個輸入變量，都選擇最高可能性的輸出變量！
假設我們將一系列的分類器簡記爲： $h_{θ}^{(i)} = p (y = i | x; θ)$ ，其中 $i = (1, 2, 3, . . ., k)$ .

1.4正則化減少過擬合

正則化技術可以用來減少過擬合，這項技術不僅僅在這裏可以使用，在其他機器學習算法中如神經網絡均可以使用。
正則化的基本思想就是引入正則化參數 $λ$ 對特徵的參數 $θ$ 進行懲罰，使得參數不至於過大，造成過擬合。
在線性迴歸中使用正則化，

在邏輯迴歸中使用正則化，

1.5 實現

(待更——)

參考資料：
[1] Andrew course機器學習學習筆記
[2] 周志華《機器學習》

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習——邏輯迴歸

邏輯迴歸

1.1 問題及定義

1.2 代價函數

1.2.1邏輯迴歸推導

1.3多分類問題

1.4正則化減少過擬合

1.5 實現

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

java由於越界導致的報錯

基礎知識面試準備

Linux學習筆記(一)-Linux操作系統啓動流程以及系統關機命令

機器學習筆記(2)-決策樹

Linux學習筆記(八)-基於AIX/Linux平臺的項目開發

Linux學習筆記(五)-安全管理以及開發基礎技術

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結