Logistic Regression邏輯迴歸原理及推導

原創

2018-09-01 00:09

邏輯迴歸算法，雖說名字有迴歸，實則是一個分類模型，而且是二分類。
Logistic本質上是一個基於條件概率的判別模型（Discriminative Model）
g(z) = $\frac{1}{1 + e^{- z}}$

通過這個圖像sigma函數，通常以0.5爲分界，大於0.5爲正樣本，反之爲負樣本，是一個二分類的方法。
那麼將這個函數擴展到多維空間，就是說不只是二分類，而是多分類問題，那麼原始的函數
g(z) = $\frac{1}{1 + e^{- z}}$ （二分類）

就要變成

$h_{θ} (x) = g (θ^{T} x) = \frac{1}{1 + e^{- θ^{T} x}}$ （多分類）
現在需要解決的一個問題是求 $θ$ ，如何得到合適的參數向量 $θ$
根據sigma函數的特性，我們可以這樣假設一下：
$P (y = 1 | x; θ) = h_{θ} (x)$ (根據當前的參數，提供樣本x，該樣本屬於y=1的概率）
$P (y = 0 | x; θ) = 1 - h_{θ} (x)$
上兩式爲已知樣本X和參數 $θ$ 的前提下，樣本X屬於正樣本(y = 1) 負樣本 (y = 0）的條件概率

然後將以上兩個公式進行合併

$P (y | x; θ) = (h_{θ} (x))^{y} (1 - h_{θ} (x))^{1 - y}$
這個公式也就是對二分類綜合的公式，能分別求出屬於正樣本、負樣本的概率

此時會用到最大似然估計的知識。最大似然估計的目的是：利用已知的樣本結果，反推最有可能（最大概率）導致這樣結果的參數值。

既然概率出來了，那麼最大似然估計也該使用了。假定樣本與樣本之間相互獨立，那麼整個樣本集生成的概率即爲所有樣本生成概率的乘積：

$L (θ) = p (\vec{y} | X; θ) = \prod_{i = 1}^{m} (h_{θ} (x^{(i)}))^{y^{(i)}} (1 - h_{θ} (x^{(i)}))^{1 - y^{(i)}}$

爲了簡化問題，我們對整個表達式求對數（將指數問題對數化是處理數學問題常見的方法）：

$l (θ) = l o g L (θ) = \sum_{i = 1}^{m} l o g h (x^{(i)}) + (1 - y^{(i)}) l o g (1 - h (x^{(i)}))$

滿足似然函數 $(θ)$ 的最大的 $θ$ 值即是我們需要求解的模型。

梯度上升算法
$X_{i + 1} = X_{i} + α * \frac{\partial f (X_{i})}{X_{i}}$

其中， $α$ 爲步長。
回到Logistic Regression問題，我們同樣對函數求偏導。
$\frac{\partial}{\partial θ_{j}} l (θ) = (y \frac{1}{g (θ^{T} x)} - (1 - y) \frac{1}{1 - g (θ^{T} x)}) \frac{\partial}{\partial θ_{j}} g (θ^{T} x) = (y \frac{1}{g (θ^{T} x)} - (1 - y) \frac{1}{1 - g (θ^{T} x)}) g (θ^{T} x) (1 - g (θ^{T} x)) \frac{\partial}{\partial θ_{j}} θ^{T} x = (y (1 - g (θ^{T} x)) - (1 - y) g (θ^{T} x)) x_{j} = (y - h_{θ} (x)) x_{j}$

對以上公式的詳細過程：

$\frac{\partial}{\partial θ_{j}} l (θ) = \frac{\partial l (θ)}{\partial g (θ^{T} x)} * \frac{\partial g (θ^{T} x)}{\partial θ^{T} x} * \frac{\partial θ^{T} x}{\partial θ_{j}}$

其中：

$l (θ) = y * l o g g (θ^{T} x) + (1 - y) l o g (1 - g (θ^{T} x))$
$\frac{\partial l (θ)}{\partial g (θ^{T} x)} = y * \frac{1}{g (θ^{T} x)} + (1 - y) * \frac{1}{1 - g (θ^{T} x)} * (- 1)$

令 $z = θ^{T} x$

$g (z)^{^{'}} = \frac{d}{d z} \frac{1}{1 + e^{- z}} = \frac{1}{({1 + e^{- z})}^{2}} (e^{- z}) = \frac{1}{(1 + e^{- z})} * (1 - \frac{1}{(1 + e^{- z})}) = g (z) (1 - g (z))$

可得：

$\frac{\partial g (θ^{T} x)}{\partial θ^{T} x} = g (θ^{T} x) * (1 - g (θ^{T} x))$

接下來就剩下第三部分：
$\frac{\partial θ^{T} x}{\partial θ_{j}} = \frac{\partial (θ_{1} x_{1} + θ_{2} x_{2} + . . . + θ_{m} x_{m})}{\partial θ_{j}} = x_{j}$

（這個公式應該很容易理解，簡單的偏導公式，只有第j項進行計算）

再有就是：

$h_{θ} (x) = g (θ^{T} x) = \frac{1}{1 + e^{- θ^{T} x}}$

綜合第三部分即得到：
$\frac{\partial}{\partial θ_{j}} l (θ) = (y - h_{θ} (x)) x_{j}$

因此，梯度迭代公式爲：
$θ_{j} := θ_{j} + α (y^{(i)} - h_{θ} (x^{(i)})) x_{j}^{(i)}$

本篇文章參考了http://www.cnblogs.com/bonelee/p/7253508.html，並對齊進行了整理，思路更清晰直觀。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Logistic Regression邏輯迴歸原理及推導

推薦系統學習祕籍

十大機器學習算法之EM算法講解及推導

機器學習常用的熵

機器學習算法之Adaboost原理和計算過程

機器學習之極大似然估計的詳細理解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結