Coursea-吳恩達-machine learning學習筆記（六）【week 3之Logistic Regression】

二元分類問題：

y \in {0,1} {\begin{cases} 0 : & Negative Class \\ 1 : & Positive Class \end{cases}

將線性迴歸應用於二元分類問題：
假設函數：

h_{θ} (x) = θ^{T} x

分類器閾值輸出

h_{θ} (x)

爲

0.5

若

h_{θ} (x) \geq 0.5

，預測

y = 1

；
若

h_{θ} (x) < 0.5

，預測

y = 0

。

對於分類問題來說， $y = 0 o r 1$ ，但是對於 $h_{θ} (x)$ ，可以 $> 1 o r < 0$ 。

由於我們希望 $0 \leq h_{θ} (x) \leq 1$ ，故引入邏輯迴歸算法：
(注：忽略離散值，可以使用迴歸算法)

假設函數：

h_{θ} (x) = g (θ^{T} x)

g

函數爲

g (z) = \frac{1}{1 + e^{- z}}

稱爲

S i g m o i d

函數或邏輯函數
故邏輯迴歸算法的假設函數爲

h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} x}}

h_{θ} (x)

用來估計基於輸入特徵值

x

，

y = 1

的可能性。
正式寫法：

h_{θ} (x) = P (y = 1 | x; θ) = 1 - P (y = 0 | x; θ)

邏輯迴歸算法的決策邊界：

h_{θ} (x) = 0.5 或 z = 0

當

h_{θ} (x) \geq 0.5 o r z \geq 0

時，

y = 1

；
當

h_{θ} (x) < 0.5 o r z < 0

時，

y = 0

。

若存在訓練集： ${(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(m)}, y^{(m)})}$
其中，

x \in [\begin{matrix} x_{0} \\ x_{1} \\ \dots \\ x_{n} \end{matrix}] x_{0} = 1, y \in {0, 1}

假設函數爲：

h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} x}}

則邏輯迴歸的代價函數爲：

J (θ) = \frac{1}{m} \sum_{i = 1}^{m} C o s t (h_{θ} (x^{(i)}), y^{(i)})

其中：

C o s t (h_{θ} (x), y) = {\begin{cases} - l o g (h_{θ} (x)) & i f y = 1 \\ - l o g (1 - h_{θ} (x)) & i f y = 0 \end{cases}

當

y = 1

時，若

h_{θ} (x) = 1

，則

C o s t = 0

，若

h_{θ} (x) = 0

，則

C o s t \to \infty

；
當

y = 0

時，若

h_{θ} (x) = 0

，則

C o s t = 0

，若

h_{θ} (x) = 1

，則

C o s t \to \infty

。

將 $C o s t (h_{θ} (x), y)$ 簡化可得：

C o s t (h_{θ} (x), y) = - y l o g (h_{θ} (x)) - (1 - y) l o g (1 - h_{θ} (x))

則代價函數爲：

\begin{matrix} J (θ) & = & \frac{1}{m} \sum_{i = 1}^{m} C o s t (h_{θ} (x^{(i)}), y^{(i)}) \\ = & - \frac{1}{m} [\sum_{i = 1}^{m} y^{(i)} l o g (h_{θ} (x^{(i)})) + (1 - y^{(i)}) l o g (1 - h_{θ} (x^{(i)}))] \end{matrix}

向量化表示則爲：

h = g (X θ)

J (θ) = \frac{1}{m} (- y^{T} l o g (h) - (1 - y)^{T} l o g (1 - h))

梯度下降法求

θ

：
Repeat {

θ_{j} := θ_{j} - α \frac{\partial}{\partial θ_{j}} J (θ) (θ_{j} 同 時 更 新)

}
即：
Repeat {

θ_{j} := θ_{j} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)} (θ_{j} 同 時 更 新)

}
向量化表示則爲：

θ := θ - \frac{α}{m} X^{T} (g (X θ) - y)

利用梯度下降法最小化

J (θ)

，須計算的是

J (θ)

及

\frac{\partial}{\partial θ_{j}} J (θ)

。
除了梯度下降法外，還有其他方法計算

θ

：

共軛梯度法；
$B F G S$ (變長度法)
$L$ - $B F G S$ (限制尺度法)

這三種方法的優點：

不需要手動選擇學習速率 $α$ ；
收斂得比梯度下降法更快。

缺點：更加複雜。

舉例： $θ = [\begin{matrix} θ_{1} \\ θ_{2} \end{matrix}]$
$J (θ) = (θ_{1} - 5)^{2} + (θ_{2} - 5)^{2}$
$\frac{\partial}{\partial θ_{1}} J (θ) = 2 * (θ_{1} - 5)$
$\frac{\partial}{\partial θ_{2}} J (θ) = 2 * (θ_{2} - 5)$
實現方法如下：

function[jVal,gradient]=costFunction(theta)

jVal=(theta(1)-5)^2+(theta(2)-5)^2;
gradient=zeros(2,1);
gradient(1)=2*(theta(1)-5);
gradient(2)=2*(theta(2)-5);

options=optimset('Gradobj','on','MaxIter','100');
initialTheta=zeros(2,1);
[OptTheta,functionVal,exitFlag]=fminunc(@costFunction,initialTheta,options);

利用梯度下降法求 $J (θ)$ 及 $\frac{\partial}{\partial θ_{j}} J (θ)$ 的一般程序模板：
$t h e t a = [\begin{matrix} θ_{0} \\ θ_{1} \\ ⋮ \\ θ_{n} \end{matrix}]$

$f u n c t i o n [j V a l, g r a d i e n t] = c o s t F u n c t i o n (t h e t a)$

$j V a l = [c o d e t o c o m p u t e J (θ)]$
$g r a d i e n t (1) = [c o d e t o c o m p u t e \frac{\partial}{\partial θ_{0}} J (θ)]$
$g r a d i e n t (2) = [c o d e t o c o m p u t e \frac{\partial}{\partial θ_{1}} J (θ)]$
$⋮$
$g r a d i e n t (n + 1) = [c o d e t o c o m p u t e \frac{\partial}{\partial θ_{n}} J (θ)]$

對於多元分類問題，可將其拆解爲多個二元分類問題。
即：

h_{θ}^{(i)} = P (y = i | x; θ) (i = 1, 2, \dots, n)

p r e d i c t i o n = m a x h_{θ}^{(i)} (x)

Coursea-吳恩達-machine learning學習筆記（六）【week 3之Logistic Regression】

【SQL進階】CASE語句的使用

npm error Cannot read properties of null (reading 'isDescendantOf')

爪哇，我初學乍道

Windows cmd窗口的切換目錄命令無法切換盤符

Coursea-吳恩達-machine learning學習筆記（十六）【week 9之Recommender Systems】

Coursea-吳恩達-machine learning學習筆記（十四）【week 8之Dimensionality Reduction】

Coursea-吳恩達-machine learning學習筆記（十二）【week 7之Support Vector Machines】

Coursea-吳恩達-machine learning學習筆記（九）【week 5之Neural Networks: Learning】

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結