吳恩達給你的人工智能第一課學習筆記一神經網絡基礎

原創

maowenbei

2020-06-04 04:43

網易雲課堂課程鏈接： https://mooc.study.163.com/smartSpec/detail/1001319001.htm

課程架構

一.、神經網絡和深度學習（https://mooc.study.163.com/course/2001281002#/info）

1 深度學習概論

2 神經網絡基礎

3 淺層神經網絡

4 深層神經網絡

二. 改善深層神經網絡：超參數調試、正則化以及優化

三、結構化機器學習項目

四、卷積神經網絡

五、序列模型

本文是博主對 神經網絡基礎 部分的學習筆記，記錄了重要公式、推導過程，用於分享、便於複習。

2.1 Binary Classification（二分分類）

訓練樣本： $(x, y), x \in R^{n_{x}}, y \in \left \{ 0, 1 \right \}$

m個樣本的訓練集： $\left \{ \left ( x^{\left ( 1 \right )}, y^{\left ( 1 \right )}\right ), \left ( x^{\left ( 2\right )}, y^{\left ( 2 \right )}\right ), ..., \left ( x^{\left ( m \right )}, y^{\left ( m\right )}\right ) \right \}$

更緊湊的寫法： $X \in R^{n_{x}\times m}$ （nx行，m列的矩陣）， $y \in R^{1\times m}$

2.2 Logistic Regression （logistic 迴歸）

輸入一個特徵向量x， $\hat{y}$ 是對y的預測值： $Given \ x, \ want \ \hat{y} = P \(y=1|x), \ x \in R^{n_{x}} , \ 0 \leqslant y \leqslant 1$

$Parameters: w \in R^{n_{x}}, b \in R$

$Output: \hat{y} = \sigma \(w^{T}x + b) = \sigma\(z) = \tfrac{1}{1+e^{-z}}, \ \sigma \ is \ Sigmoid \ function$

設參數 $\theta$ 由b和w組成，則公式簡化： $x_{0}=1, \ x\in R^{n_{x}+1}, \ \theta^T=[b,w_1,w_2,...w_n],\ \theta \in R^{1+n_x},\ \hat{y}=\sigma(\theta ^{T}x)$

2.3 Logistic Regression cost function（爲了訓練w和b，需要定義一個成本函數/損失函數）

$Given \left \{ \left ( x^{\left ( 1 \right )}, y^{\left ( 1 \right )}\right ), \left ( x^{\left ( 2\right )}, y^{\left ( 2 \right )}\right ), ..., \left ( x^{\left ( m \right )}, y^{\left ( m\right )}\right ) \right \}, want\ \hat{y}^i\approx y^i .$

對單個樣本定義損失函數 Loss(error) function：

$L(\hat{y},y)=-(ylog\hat{y} + (1-y)log(1-\hat{y}))$

對全體樣本定義成本函數 Cost function （是個凸函數）：

$J(w,b)=\frac{1}{m}\sum_{i=1}^{m}L(\hat{y}^{(i)}, y^{(i)}) = \frac{1}{m}\sum_{i=1}^{m}[y^{(i)}log(\hat{y}^{(i)})+(1-y^{(i)})log(1- \hat{y}^{(i)})]$

2.4 Gradient Descent（梯度下降法）

α 爲自定義的學習率，對J求w的偏導，重複 w := w - α dw， dw爲導數/斜率，逐步向最優點。

2.5-2.8 講了導數和導數計算的計算圖，數學基礎知識。

2.9 Logistic Regression Gradient descent（logistic迴歸中的梯度下降 —— 單個樣本）

定義符號： $z=w^Tx+b,\ \hat{y}=a=\sigma(z),\ L(a,y)=-(ylog(a) + (1-y)log(1-a))$

計算圖（反向計算導數）： $x_1,w_1,x_2,w_2,b \rightarrow z= w_1x_1 +w_2x_2+b\rightarrow a=\sigma(z)=\tfrac{1}{1+e^{-z}}\rightarrow L(a,y)$

$da=\frac{dL(a,y)}{da} =-\frac{y}{a}+\frac{1-y}{1-a}$ ， $\frac{da}{dz}=\frac{e^{-z}}{(1+e^{-z})^2}=a(1-a)$

$dz =\frac{dL}{dz}=\frac{dL(a,y)}{dz}=\frac{dL}{da}\frac{da}{dz}=(-\frac{y}{a}+\frac{1-y}{1-a})(a(1-a))=a-y$

$dw_1=x_1\cdot dz, \ dw_2=x_2\cdot dz,\ db=dz$

梯度下降： $w_1 := w_1 - \alpha dw_1, \ w_2 := w_2 - \alpha dw_2, \ b :=b - \alpha db$

2.10 Gradient descent on m examples （m個樣本的梯度下降）

$J(w,b)=\frac{1}{m}\sum_{i=1}^{m}L(a^{(i)}, y^{(i)}) , a^{(i)}=\hat{y}^{(i)}=\sigma(z^{(i)})=\sigma(w^Tx^{(i)}+b)$

$\tfrac{\partial}{\partial w_1}J(w,b)=\tfrac{1}{m}\sum_{i=1}^{m}\tfrac{\partial}{\partial w_1}L(a^{(i)},y^{(i)})=\tfrac{1}{m}\sum_{i=1}^{m}dw_{1}^{(i)}$