第一週深度學習概論

1.1 歡迎來到深度學習工程師微專業

將會學到什麼?
此順序的課程（專業）

1.神經網絡和深度學習
2.改進的深層神經網絡：超參數整定，正則化和優化
3.構建你的機器學習項目
4.卷積神經網絡
5.自然語言處理：建立序列模型

1.2 什麼是神經網絡？

什麼是神經網絡

它是一個強大的學習算法，靈感來自大腦的工作原理。

例子1-單神經網絡
給定房地產市場上房屋大小的數據，你需要擬合一個函數來預測它們的價格。這是一個線性迴歸問題，因爲價格作爲尺寸的函數是一個連續的產出。
我們知道價格永遠不會是負的，所以我們創建一個稱爲修正線性單位（Relu）的函數，它從零開始。
輸入是房屋的尺寸 $(x)$
輸出是價格 $(y)$
“神經元”使用了Relu激活函數(blue line)。

第二週神經網絡基礎

2.1 二分分類

神經網絡的計算過程可以分爲前向傳播和反向傳播。
logistic迴歸是一個用於二分分類的算法。
在計算機中，一張圖片可以以RGB矩陣的形式存儲。
可以定義一個特徵向量 $x$ 。
$x=[255, 231, 42, 22,...,255, 134, 202, 22,...,255,134, 93,22]^{T}$
$x=[R...G...B]^{T}$
以表示這張圖片。
$n_{x}=64*64*3=12288$ ，來表示輸入特徵向量 $x$ 的維度。

符號約定：

$(x, y)$ ：表示一個單獨的樣本
$x$ 是 $n_{x}$ 維的特徵向量
$y$ 的值爲0或者1
訓練集由m個訓練樣本構成， $(x^{(1)},y^{(1)})$ 表示樣本1的輸入輸出。 $(x^{(2)},y^{(2)})$ 表示樣本2的輸入輸出。 $(x^{(m)},y^{(m)})$ 表示樣本m的輸入輸出。
$m$ 表示訓練的樣本數
$m_{train}$ 表示訓練樣本數， $m_{test}$ 表示測試樣本數。
定義一個 $X$ 表示訓練集 $x^{(1)},x^{(2)},...x^{(m)}$
$X=\begin{bmatrix} |&|&&&&|\\ |&|&&&&|\\ x^{(1)}&x^{(2)}&.&.&.&x^{(m)}\\ |&|&&&&|\\ |&|&&&&|\\ \end{bmatrix}$
$X\in\mathbb{R}^{n_{x}*m}$ ， $X.shape=(n_{x}, m)$
定義一個 $Y$ 表示訓練集 $y^{(1)},y^{(2)},...y^{(m)}$
$Y=\begin{bmatrix} y^{(1)}&y^{(2)}&.&.&.&y^{(m)}\\ \end{bmatrix}$
$Y\in\mathbb{R}^{1*m}$ ， $Y.shape=(1, m)$

2.2 logistic迴歸

Logistic Regression

logistic迴歸是一種用於有監督學習問題的學習算法，當輸出 $y$ 爲0或1時。logistic迴歸的目標是使預測值與訓練數據之間的誤差最小。
例子：貓or不是貓
給定由特徵向量 $x$ 表示的圖像，該算法將評估一隻貓出現在圖像中的概率。
$Given\ x,\ \hat{y}=P(y=1|x),\ where\ 0\le\hat{y}\le1$
logistic迴歸中使用的參數是：

輸入特徵向量： $x\in\mathbb{R}^{n_{x}}$ ，其中 $n_{x}$ 是特徵數
訓練標籤： $y\in0,1$
權重： $w\in\mathbb{R}^{n_{x}}$ ，其中 $n_{x}$ 是單個樣本的特徵數
閾值： $b\in\mathbb{R}$
輸出： $\hat{y}=\sigma(w^{T}x+b)$ ， $\hat{y}$ 爲預測值。
sigmoid函數： $s=\sigma(w^{T}x+b)=\sigma(z)=\frac{1}{1+e^{-z}}$

$(w^{T}x+b)$ 是線性函數 $(ax+b)$ ，但由於我們在[0，1]之間尋找一個概率約束，所以使用了sigmoid函數。如上圖所示，函數在[0,1]之間有界。
從圖上觀察：

如果 $z$ 無窮大， $\sigma(z)=1$
如果 $z$ 很小或者負無窮數， $\sigma(z)=0$
如果 $z=0$ ， $\sigma(z)=0.5$

2.3 logistic迴歸損失函數

邏輯迴歸：成本函數

爲了訓練參數 $w$ 和 $b$ ，我們需要定義一個成本函數。
簡要回顧：

$\hat{y}^{(i)}=\sigma(w^{T}x^{(i)}+b),\ where\ \sigma(z^{(i)})=\frac{1}{1+e^{-z^{(i)}}}$

$x^{(i)}$ 是第 $i$ 個訓練樣本

$Given\ \left\{(x^{(1)}, y^{(1)}),...,(x^{(m)}, y^{(m)})\right\}$ ，我們希望 $\hat{y}^{(1)} \approx y^{(i)}$

損失函數

損失函數測量預測值( $\hat{y}^{(i)}$ )和期望輸出( $y^{(i)}$ )之間的差異。
換句話說，loss函數計算單個訓練示例的損失值。

不好的損失函數：

$L(\hat{y}^{(i)}, y^{(i)})=\frac{1}{2}(\hat{y}^{(i)}-y^{(i)})^{2}$

好的損失函數

$L(\hat{y}^{(i)}, y^{(i)})=-(y^{(i)}log(\hat{y}^{(i)})+(1-y^{(i)})log(1-\hat{y}^{(i)}))$

$if\ \hat{y}=1$ : $L(\hat{y}^{(i)}, y^{(i)})=-log(\hat{y}^{(i)})$ where $log(\hat{y}^{(i)})$ and $\hat{y}^{(i)}$ should be closed to 1.
$if\ \hat{y}=0$ : $L(\hat{y}^{(i)}, y^{(i)})=-log(1-\hat{y}^{(i)})$ where $log(1-\hat{y}^{(i)})$ and $\hat{y}^{(i)}$ should be closed to 0.

總之原則是使得損失函數最小。
那麼當 $y=1$ 時，要使得損失函數最小，那麼 $\hat{y}$ 必定會接近於1，所以會選擇下面的損失函數。
當 $y=0$ 時，要使得損失函數最小，那麼 $\hat{y}$ 必定會接近於0，所以會選擇下面的損失函數。

成本函數

成本函數是整個訓練集損失函數的平均值。
我們要找到使總體成本函數最小的參數 $w$ 和 $b$ 。
$J(w,b)=\frac{1}{m}\sum_{i=1}^{m}L(\hat{y}^{(i)},y^{(i)})=-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}log(\hat{y}^{(i)})+(1-y^{(i)})log(1-\hat{y}^{(i)})]$

2.4 梯度下降法

通過梯度下降發法找到 $w,\ b$ ，使得 $J(w, b)$ 最小。
重複

$w:=w-\alpha\frac{d{J(w, b)}}{dw}$

$b:=b-\alpha\frac{d{J(w, b)}}{db}$

2.5 導數

$f(a)=3a$ ， $f'(a)$ =3。

2.6 更多導數的例子

$f(a)=a^{2},\ f'(a)=2a$
$f(a)=a^{3},\ f'(a)=3a^{2}$

2.7 計算圖

$J(a,b,c)=3(a+bc)$
令
$\left\{ \begin{aligned} u & = & bc \\ v & = & a+u \\ J & = & 3v \end{aligned} \right.$

2.8 計算圖的導數計算

導數的鏈式法則

$\frac{dJ}{dv}=3$

$\frac{dJ}{da}=\frac{dJ}{dv}\frac{dv}{da}$

$\frac{dv}{da}=1$

通常在代碼中使用 $da$ 表示 $\frac{dv}{da}$ 。

2.9 logistic迴歸中的梯度下降法

損失函數

$L(\hat{y}^{(i)}, y^{(i)})=-(y^{(i)}log(\hat{y}^{(i)})+(1-y^{(i)})log(1-\hat{y}^{(i)}))$

$L(a, y)=-(yloga + (1-y)log(1-a))$

$L(a,y)=-yloga-(1-y)log(1-a)$

求導

da

$da=\frac{dL(a,y)}{da}=-y*\frac{1}{aln2}-(1-y)\frac{1}{(1-a)ln2}*(-1)$

$=-\frac{y}{aln2}+\frac{1-y}{(1-a)(ln2)}$

$=\frac{1}{ln2}(-\frac{y}{a}+\frac{1-y}{1-a})$

da/dz

激活函數

sigmoid函數：

$a =\sigma(w^{T}x+b)=\sigma(z)=\frac{1}{1+e^{-z}}$

求導

$\frac{da}{dz}=\frac{1'(1+e^{-z})-1(1+e^{-z})'}{(1+e^{-z})^2}$

$=\frac{-(-z)'(e^{-z})}{(1+e^{-z})^2}$

$=\frac{e^{-z}}{(1+e^{-z})^2}$

$a=\frac{1}{1+e^{-z}}$

$1-a=\frac{1+e^{-z}}{1+e^{-z}}-\frac{1}{1+e^{-z}}$

$=\frac{e^{-z}}{1+e^{-z}}$

$a(1-a)=\frac{e^{-z}}{(1+e^{-z})^{2}}$

所以

$\frac{da}{dz}=a(1-a)$

dz
$dz=\frac{dL}{dz}$

$=\frac{dL(a, y)}{dz}$

$=\frac{dL}{da}*\frac{da}{dz}$

$=(-\frac{y}{a}+\frac{1-y}{1-a})*a(1-a)$

$=a-y$

$\frac{dL}{dw_{1}}=dw_{1}=x_{1}*{dz}$

$\frac{dL}{dw_{2}}=dw_{2}=x_{2}*{dz}$

$db=dz$

總結
$\left\{ \begin{aligned} da & = & (-\frac{y}{a}+\frac{1-y}{1-a}) \\ dz & = & a-y \\ dw_{1} & = & x_{1}dz \\ dw_{2} & = & x_{2}dz \\ db & = & dz \\ \end{aligned} \right.$
梯度下降
$\left\{ \begin{aligned} w_{1} & := & w1-\alpha dw_{1} \\ w_{2} & := & w2-\alpha dw_{2} \\ b & := & b-\alpha db \\ \end{aligned} \right.$

2.10 m個樣本的梯度下降

$J(w,b)=\frac{1}{m}\sum_{i=1}^{m}L(\hat{y}^{(i)},y^{(i)})=-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}log(\hat{y}^{(i)})+(1-y^{(i)})log(1-\hat{y}^{(i)})]$

2.11 向量化

使用Numpy的內置函數而不是~~for~~ 循環去做做向量的點積。

2.12 向量化的更多例子

略

第三週

3.1 神經網絡概覽

使用 $(1)$ 、 $(2)$ 、 $(3)$ … $(n)$ 代表樣本1、2、3…n的數據。
使用 $[1]$ 、 $[2]$ 、 $[3]$ … $[n]$ 代表單個神經網絡，1、2、3…n層的數據。

3.2 神經網絡表示

w.shape=(4, 3)
w.shape=(4, 3)
x.shape = (3, 1)

3.3 計算神經網絡的輸出

$z^{[1]}_{1}$ 表示神經網絡第1層的的第一個節點的 $z$ 。

3.8 激活函數的導數

$if\ g(z)=\frac{1}{1+e^{-z}}:$

$g'(z)=\frac{1}{1+e^{-z}}$

$=\frac{dg(z)}{dz}$

$=\frac{1'(1+e^{-z})-1(1+e^{-z})'}{(1+e^{-z})^2}$

$=\frac{-(-z)'(e^{-z})}{(1+e^{-z})^2}$

$=\frac{e^{-z}}{(1+e^{-z})^2}$

$=\frac{1}{1+e^{-z}}(1-\frac{1}{1+e^{-z}})$

$=g(z)(1-g(z))$

$or$

$=a(1-a)$

$if\ g(z)=tanh(z):$

$=\frac{e^{z}-e^{-z}}{e^{z}+e^{-z}}$

$g'(z)=1-(1-tanh(z))^{2}$

$=1-g(z)^{2}$

$=1-a^{2}$

$if\ g(z)=max(0,z):$
$g'(z)=\left\{ \begin{aligned} 0 & & if\ z<0 \\ 1 & &if\ z\ge0 \end{aligned} \right.$

$if\ g(z)=max(0.01z, z):$
$g'(z)=\left\{ \begin{aligned} 0.01 & & if\ z<0 \\ 1 & &if\ z\ge0 \end{aligned} \right.$

激活函數的導數總結

名稱	公式	導數
$Sigmoid$	$a=g(z)=\frac{1}{1+e^{-z}}$	$a(a-1)$
$Tanh$	$a=g(z)=\frac{e^{z}-e^{-z}}{e^{z}+e^{-z}}$	$1-a^{2}$
ReLU	$a=g(z)=max(0,z)$	$g'(z)=\left\{\begin{aligned}0 & & if\ z<0 \\1 & &if\ z\ge0\end{aligned}\right.$
Leaky ReLU	$a=g(z)=max(0.01z,z)$	$g'(z)=\left\{\begin{aligned}0.01 & & if\ z<0 \\1 & &if\ z\ge0\end{aligned}\right.$

W.shape = ()
dz.shape=(1, 1)
a.shape=(n1, 1)
a.T.shape=(1, n1)
dz*a.T.shape=(1, n1)

吳恩達《神經網絡和深度學習》學習筆記

這裏寫目錄標題

第一週深度學習概論

1.1 歡迎來到深度學習工程師微專業

1.2 什麼是神經網絡？

什麼是神經網絡

第二週神經網絡基礎

2.1 二分分類

2.2 logistic迴歸

Logistic Regression

2.3 logistic迴歸損失函數

邏輯迴歸：成本函數

2.4 梯度下降法

2.5 導數

2.6 更多導數的例子

2.7 計算圖

2.8 計算圖的導數計算

2.9 logistic迴歸中的梯度下降法

2.10 m個樣本的梯度下降

2.11 向量化

2.12 向量化的更多例子

第三週

3.1 神經網絡概覽

3.2 神經網絡表示

3.3 計算神經網絡的輸出

3.8 激活函數的導數

lightdb hash index的性能和限制

DeepStream Python Apps

如何打包Python程序

課後練習第1章 Python入門

Ubuntu給python程序添加桌面圖標

吳恩達《神經網絡和深度學習》學習筆記

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

吳恩達《神經網絡和深度學習》學習筆記

這裏寫目錄標題

第一週 深度學習概論

1.1 歡迎來到深度學習工程師微專業

1.2 什麼是神經網絡？

什麼是神經網絡

第二週 神經網絡基礎

2.1 二分分類

2.2 logistic迴歸

Logistic Regression

2.3 logistic迴歸損失函數

邏輯迴歸：成本函數

2.4 梯度下降法

2.5 導數

2.6 更多導數的例子

2.7 計算圖

2.8 計算圖的導數計算

2.9 logistic迴歸中的梯度下降法

2.10 m個樣本的梯度下降

2.11 向量化

2.12 向量化的更多例子

第三週

3.1 神經網絡概覽

3.2 神經網絡表示

3.3 計算神經網絡的輸出

3.8 激活函數的導數

第一週深度學習概論

第二週神經網絡基礎