邏輯迴歸

1. 模型引入

線性模型可以進行迴歸學習（參見【機器學習模型1】- 線性迴歸），但如何用於分類任務？需要找一個單調可微函數將分類任務的真實標記y與線性迴歸模型的預測值聯繫起來。
對於二分類任務，輸出標記 $y$ 取值 $\{0, 1\}$ ，而線性迴歸預測值 $z = w^Tx+b$ 屬於實數集 $R$ ，所以需要一個變換使實值 $z$ 映射到 $0/1$ 值。
引入 $Sigmoid$ 函數： $y=\frac{1}{1+e^{-z}}$ ，可以將 $z$ 值轉爲一個接近0或1的 $y$ 值，而且單調可微。圖像如下：

2. 模型描述

根據廣義線性模型 $y=g^{-1}(\theta^T x)$ 定義，將Sigmoid函數作爲 $g^{-1}()$ 代入：
$h_\theta(x) = \frac{1}{1+e^{-\theta^T x}}$

對數機率函數：邏輯迴歸也稱爲對數機率函數。

$h_\theta(x)$ 反映了作爲正例的可能性，則 $1-h_\theta(x)$ 反映了作爲負例的可能性

所以 $\frac{h_\theta(x)}{1-h_\theta(x)}$ 反映了作爲正例的相對可能性， $\frac{h_\theta(x)}{1-h_\theta(x)} > 1$ ，則爲正例，稱爲 “機率”。

$ln\frac{h_\theta(x)}{1-h_\theta(x)}$ 爲 “對數機率”

所以，邏輯迴歸實際上是用線性迴歸模型的預測來逼近真實的對數機率。

3. 模型求解策略（代價函數）

1）代價函數公式：
$J(\theta) = -\frac{1}{m}\sum_{i=1}^{m}[ y^{(i)}lnh_\theta(x^{(i)})+(1-y^{(i)})ln(1-h_\theta(x^{(i)})) ]$
2）推導過程：
極大似然法 ：根據給定數據集，最大化對數似然函數：
$L(\theta) = \sum_{i=1}^{m}lnP(y^{(i)}|x;\theta)$ 由於 y 只能取 0 / 1，所以
$P(y=0|x;\theta) = h_\theta(x)=\frac{1}{1+e^{-\theta^T x}}\\ P(y=1|x;\theta) = 1-h_\theta(x)=\frac{e^{-\theta^T x}}{1+e^{-\theta^T x}} = \frac{1}{e^{\theta^T x}+1} \\$ 所以：
$P(y|x;\theta) = (h_\theta(x))^y(1-h_\theta(x))^{(1-y)}$ 可以求得：
$L(\theta) =\sum_{i=1}^{m}[ y^{(i)}lnh_\theta(x^{(i)})+(1-y^{(i)})ln(1-h_\theta(x^{(i)})) ]$ 爲了使用梯度下降法求解，將 $L(\theta)$ 取負，定義損失函數：
$J(\theta) = -\frac{1}{m}L(\theta) = -\frac{1}{m}\sum_{i=1}^{m}[ y^{(i)}lnh_\theta(x^{(i)})+(1-y^{(i)})ln(1-h_\theta(x^{(i)})) ]$

爲什麼除以m？在使用樣本不同數量的多個批次來更新 $\theta$ 時，除以樣本數量 m 來抵消不同批次樣本數量不同帶來的影響。

4. 模型求解算法 - 梯度下降

1）參數更新方程：
$\theta_j = \theta_j - \alpha\frac{1}{m}\sum_{i=1}^{m}[h_\theta(x^{(i)})-y^{(i)}]x_j^{(i)}$

2）推導過程：

設定：初始值 $\theta$ 、學習步長 $\alpha$
不斷更新 $\theta$ ：
$\theta_j = \theta_j -\alpha\frac{\partial }{\partial \theta_j} J(\theta)$ 其中，梯度計算如下：

（Ref：參考吳恩達Cousera機器學習課程 6.4節）
直到 $梯度\Delta\theta = \frac{\partial }{\partial \theta_j} J(\theta) < 閾值\varepsilon$ ，得到最優 $\theta$

3）向量化表示
$\theta = \theta - \frac{\alpha}{m}X^T(\frac{1}{1+e^{-X\theta}}-y)$

X，y表示如下：
$X=\begin{bmatrix} X^{(1)}_1& X^{(1)}_2& ...& X^{(1)}_n& \\ X^{(2)}_1& X^{(2)}_2& ...& X^{(2)}_n& \\ ...& ...& ...& ...& \\ X^{(m)}_1& X^{(m)}_2& ...& X^{(m)}_n& \\ \end{bmatrix}， \theta=\begin{bmatrix} \theta_1& \\ \theta_2& \\ ...& \\ \theta_n& \\ \end{bmatrix}， y=\begin{bmatrix} y_1& \\ y_2& \\ ...& \\ y_m& \\ \end{bmatrix}，$

【機器學習模型詳細推導2】- 邏輯迴歸

邏輯迴歸

1. 模型引入

2. 模型描述

3. 模型求解策略（代價函數）

4. 模型求解算法 - 梯度下降

【ML模型詳細推導1】- 線性迴歸

【機器學習模型詳細推導2】- 邏輯迴歸

Kubernetes 作業管理之 DaemonSet

Kubernetes 理解筆記之“控制器模型” Deployment

Kubernetes 指標監控技術

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結