吳恩達Coursera深度學習課程 deeplearning.ai (1-2) 神經網絡基礎--課程筆記

原創

haoyutiangang

2020-02-23 18:12

相關課件：https://download.csdn.net/download/haoyutiangang/10369622

本週課程主要講的是邏輯迴歸，因爲之後的神經網絡模型和邏輯迴歸類似。

二分分類

比如用多張圖片訓練來預測圖片中是否有貓。

符號表示：

單個樣本： (x, y)
樣本數量： m
第 i 個樣本： $x^{(i)}$
訓練集： m = $m_{t r a i n}$
測試集： m = $m_{t e s t}$
輸入輸出： 每個樣本的 x 爲輸入，y 爲輸出
輸入矩陣X： 輸入 $x$ 的多個維度構成一個 n維列向量，m 個 $x$ 構成 m 個列向量，組合成爲一個 (n*m) 的輸入矩陣
輸出矩陣Y： 輸出 $y$ 非0即1，是一個1維的向量（一個數），m 個 $y$ 構成 m 個列向量，組合成爲一個 (1*m) 的矩陣

logistic 迴歸

邏輯迴歸預測結果是1還是0

在線性迴歸中我們通常使用 $\hat{Y}$ = WX+b 來預測 Y 的預測值，但是這樣 $\hat{Y}$ 的取值範圍特別大，爲了讓 $\hat{Y}$ 收斂到 Y 也就是1或者0，需要對結果再進行一次 sigmoid 運算。

下圖中紅色部分是另一種表示方式，將 W 和 b 統一表示了，本課程中還是使用 W 和 b 來表示參數。

logistic 迴歸損失函數

樣本上標(i)： 表示第 i 個樣本
損失函數(loss function)： 評估 $\hat{y}$ 和 y 之間的差距
成本函數(cost function)： 評估損失函數的均值，即 m 個損失函數的均值

損失函數通常使用

L (\hat{y}, y) = \frac{1}{2} (\hat{y} - y)^{2}

但是邏輯迴歸中，上述損失函數不是凸函數，不好計算最小值。

邏輯迴歸的損失函數(Loss Function)：

L (\hat{y}, y) = - (y l o g \hat{y} + (1 - y) l o g (1 - \hat{y}))

邏輯迴歸的成本函數(Cost Function)：

J (w, b) = \frac{1}{m} \sum_{i = 1}^{m} L ({\hat{y}}^{(i)}, y^{(i)}) = - \frac{1}{m} \sum_{i = 1}^{m} [(y^{(i)} l o g {\hat{y}}^{(i)} + (1 - y^{(i)}) l o g (1 - {\hat{y}}^{(i)}))]

成本函數是 W 和 b 的函數，我們的目的是求最佳的 W 和 b, 使得成本函數儘可能的接近於0

梯度下降法

梯度下降法每次都沿着導數下降的方向走一小段距離，通過多次迭代逐步接近於函數最小值。（函數需是凸函數）

w := w - α \frac{\partial J (w, b)}{\partial w} b := b - α \frac{\partial J (w, b)}{\partial b}

α

爲學習率，學習率和導數的乘積決定了步長值，在學習率一定的情況下，導數越大，步長越大；導數越小，步長越小。

導數

導數求導和鏈式法則

logistic 迴歸中的梯度下降法

前向傳播

反向傳播

補充

s i g m o i d = s = \frac{1}{1 + e^{- t}} s i g m o i d^{'} = s^{'} = s (1 - s)

鏈式求導

\begin{aligned} (8) & d a = \frac{\partial L}{\partial a} = - \frac{y}{a} + \frac{1 - y}{1 - a} \\ (9) & d z = \frac{\partial L}{\partial z} = \frac{\partial L}{\partial a} \frac{\partial a}{\partial z} = (- \frac{y}{a} + \frac{1 - y}{1 - a}) \cdot a (1 - a) = a - y \\ (10) & d w_{1} = \frac{\partial L}{\partial w_{1}} = \frac{\partial L}{\partial z} \frac{\partial z}{\partial w_{1}} = x_{1} \cdot d z = x_{1} (a - y) \\ (11) & d b = \frac{\partial L}{\partial b} = \frac{\partial L}{\partial z} \frac{\partial z}{\partial b} = 1 \cdot d z = a - y \\ (12) & w 1 := w 1 - α d w_{1} \\ (13) & w 2 := w 2 - α d w_{2} \\ (14) & b := b - α d b \end{aligned}

m 個樣本的梯度下降

在 for 循環中計算每個樣本的前向傳播和反向傳播，共 m 次
每個計算時輸入可能是 n 維向量，所以需要計算 $w_{1}, w_{2}, . . ., w_{n}$ 共 n 個
爲了減少 for 循環的時間，可以考慮使用向量化運算，也就是並行運算向量中的每一個值

向量化 logistic 迴歸

w: n*1
X: n*m
b: 1*m
y: 1*m

Z = np.dot(w.T,X) + b
A = sigmoid(Z)

dZ = A-Y
dw = 1/m*np.dot(X,dZ.T)
db = 1/m*np.sum(dZ)

w = w - alpha*dw
b = b - alpha*db

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

吳恩達Coursera深度學習課程 deeplearning.ai (1-2) 神經網絡基礎--課程筆記

二分分類

logistic 迴歸

logistic 迴歸損失函數

梯度下降法

導數

logistic 迴歸中的梯度下降法

前向傳播

反向傳播

m 個樣本的梯度下降

向量化 logistic 迴歸

吳恩達Coursera深度學習課程 deeplearning.ai (2-2) 優化算法--編程作業

吳恩達Coursera深度學習課程 deeplearning.ai (2-3) TensorFlow Tutorial--編程作業

吳恩達Coursera深度學習課程 deeplearning.ai (2-2) 優化算法--課程筆記

吳恩達Coursera深度學習課程 deeplearning.ai (2-3) 超參數調試、Batch 正則化和程序框架--課程筆記

深度學習系列5：卷積神經網絡(CNN)，圖像識別的利器

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結