Coursea-吳恩達-machine learning學習筆記（九）【week 5之Neural Networks: Learning】

神經網絡模型存在訓練集：
${(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(m)}, y^{(m)})}$

常用的符號表示：

$L$ ：神經網絡的層數；
$S_{l}$ ：第 $l$ 層的單元數(不包含偏置單元)；
$K$ ：輸出單元的數量。

神經網絡有兩種分類：

二元分類
$y = 0$ 或 $1$ ，只有1個輸出單元， $h_{Θ} (x)$ 是一個實數，即 $S_{L} = 1$
多類別分類( $K$ 個不同類)
$K$ 個輸出單元， $h_{Θ} (x)$ 是一個 $K$ 維向量，即 $S_{L} = K (K ⩾ 3)$

神經網絡的代價函數：
$h_{Θ} (x) \in R^{k}$ ， $(h_{Θ} (x))_{i}$ 爲第 $i$ 個輸出

$J (Θ) = - \frac{1}{m} [\sum_{i = 1}^{m} \sum_{k = 1}^{K} y_{k}^{(i)} l o g ((h_{Θ} (x^{(i)}))_{k}) + (1 - y_{k}^{(i)}) l o g (1 - (h_{Θ} (x^{(i)}))_{k})] + \frac{λ}{2 m} \sum_{l = 1}^{L - 1} \sum_{i = 1}^{S_{l}} \sum_{j = 1}^{S_{l + 1}} (Θ_{j i}^{(l)})^{2}$

當前 $Θ$ 矩陣的列數等於當前層的單元數(包括偏置單元)，當前 $Θ$ 矩陣的行數等於下一層的單元數(不包括偏置單元)。
上式中的雙重求和將輸出層的每個單元的邏輯迴歸代價相加，三重求和將整個網絡中的所有 $Θ$ 的平方相加

反向傳播算法：讓代價函數最小化的算法。
最小化 $J (Θ)$ ，我們需要計算 $J (Θ)$ ， $\frac{\partial}{\partial Θ_{i j}^{(l)}} J (Θ)$ 。

如上圖所示神經網絡，當只有1個訓練樣本 $(x, y)$ 時：
前向傳播算法：
$\Rightarrow a^{(1)} = x$
$\Rightarrow Z^{(2)} = Θ^{(1)} a^{(1)}$
$\Rightarrow a^{(2)} = g (Z^{(2)}) (a d d a_{0}^{(2)})$
$\Rightarrow Z^{(3)} = Θ^{(2)} a^{(2)}$
$\Rightarrow a^{(3)} = g (Z^{(3)}) (a d d a_{0}^{(3)})$
$\Rightarrow Z^{(4)} = Θ^{(3)} a^{(3)}$
$\Rightarrow a^{(4)} = h_{Θ} (x) = g (Z^{(4)})$
反向傳播算法：
$δ_{j}^{(l)}$ ： $l$ 層第 $j$ 個單元的誤差
以上圖爲例： $\Rightarrow δ_{j}^{(4)} = a_{j}^{(4)} - y_{j}$
注：此處 $a_{j}^{(4)}$ 等同於 $(h_{Θ} (x))_{j}$ ， $y_{j}$ 即輸出向量的第 $j$ 個元素值
將上式向量化： $\Rightarrow δ^{(4)} = a^{(4)} - y$
$\Rightarrow δ^{(3)} = (Θ^{(3)})^{T} δ^{(4)} . * g^{'} (Z^{(3)}) g^{'} (Z^{(3)})$ 爲 $g (Z^{(3)})$ 的導數且 $g^{'} (Z^{(3)}) = a^{(3)} . * (1 - a^{(3)})$
$\Rightarrow δ^{(2)} = (Θ^{(2)})^{T} δ^{(3)} . * g^{'} (Z^{(2)}) g^{'} (Z^{(2)})$ 爲 $g (Z^{(2)})$ 的導數且 $g^{'} (Z^{(2)}) = a^{(2)} . * (1 - a^{(2)})$
$\Rightarrow \frac{\partial}{\partial Θ_{i j}^{(l)}} J (Θ) = a_{j}^{(l)} δ_{i}^{(l + 1)}$ (忽略 $λ$ 正則化項)

當有 $m$ 個訓練樣本 ${(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(m)}, y^{(m)})}$ 時：
設 $Δ_{i j}^{(l)} = 0 (f o r a l l l, i, j)$ (注： $Δ$ 是 $δ$ 的大寫)
$\Rightarrow f o r i = 1 t o m :$
$\Rightarrow$ 設 $a^{(1)} = x^{(i)}$
$\Rightarrow$ 利用前向傳播算法計算 $a^{(l)} (f o r l = 2, 3 \dots L)$
$\Rightarrow$ 用 $y^{(i)}$ ，計算 $δ^{(L)} = a^{(L)} - y^{(i)}$
$\Rightarrow$ 計算 $δ^{(L - 1)}, δ^{(L - 2)}, \dots, δ^{(2)}$ (注： $δ^{(l)} = ((Θ^{(l)})^{T} δ^{(l + 1)}) . * a^{(l)} . * (1 - a^{(l)})$ )
$\Rightarrow Δ_{i j}^{(l)} := Δ_{i j}^{(l)} + a_{j}^{(l)} δ^{(l + 1)}$ 向量化該式： $Δ^{(l)} := Δ^{(l)} + δ^{(l + 1)} (a^{(l)})^{T}$ (注：此處應去掉 $δ_{0}^{(l + 1)}$ )
$\Rightarrow$ (跳出循環)
$\Rightarrow D_{i j}^{(l)} := \frac{1}{m} (Δ_{i j}^{(l)} + λ Θ_{i j}^{(l)}) i f j \neq 0$
$\Rightarrow D_{i j}^{(l)} := \frac{1}{m} Δ_{i j}^{(l)} i f j = 0$
$\Rightarrow$ (注： $Θ^{(l)}$ 的第1列不正則化，上式可以向量化去掉 $i j$ )
$\Rightarrow \frac{\partial}{\partial Θ_{i j}^{(l)}} J (Θ) = D_{i j}^{(l)}$

對於只有一個輸出單元的神經網絡： $δ_{j}^{(l)}$ 爲 $a_{j}^{(l)}$ ( $l$ 層第 $j$ 個單元)的代價誤差；
更正式的表達： $δ_{j}^{(l)} = \frac{\partial}{\partial Z_{j}^{(l)}} c o s t (i) (j ⩾ 0)$ 其中， $c o s t (i) = y^{(i)} l o g (h_{Θ} (x^{(i)})) + (1 - y^{(i)}) l o g (1 - h_{Θ} (x^{(i)}))$

利用高級最優化算法最小化 $J (Θ)$ ：

function[jVal,gradient] = costFunction(theta)
...
optTheta = fminunc(@costFunction,initialTheta,options)

這種方法中， $t h e t a, g r a d i e n t$ 值均爲向量。

對於神經網絡(4層爲例)：
$Θ^{(1)}, Θ^{(2)}, Θ^{(3)}$ —-矩陣( $T h e t a 1, T h e t a 2, T h e t a 3$ )
$D^{(1)}, D^{(2)}, D^{(3)}$ —-矩陣( $D 1, D 2, D 3$ )
爲了使用優化算法，需要將矩陣展開成向量：

thetaVector = [Theta1(:);Theta2(:);Theta3(:)];
deltaVector = [D1(:);D2(:);D3(:)];

如果 $T h e t a 1$ 的維度爲 $10 \times 11$ ， $T h e t a 2$ 的維度爲 $10 \times 11$ ， $T h e t a 3$ 的維度爲 $1 \times 11$ ，則從向量中返回矩陣的方法如下：

Theta1 = reshape(thetaVector(1:110),10,11);
Theta2 = reshape(thetaVector(111:220),10,11);
Theta3 = reshape(thetaVector(221:231),1,11);

總結：有初始參數 $Θ^{(1)}, Θ^{(2)}, Θ^{(3)}$ ,展開後獲得 $i n i t i a l T h e t a$ ，傳值給：

fminunc(@costFunction,initialTheta,options)

function[jVal,gradientVec] = costFunction(thetaVec)

上面代價函數 $c o s t F u n c t i o n$ 內的具體步驟如下：
$\Rightarrow$ 從 $t h e t a V e c$ 中得到 $Θ^{(1)}, Θ^{(2)}, Θ^{(3)}$ ；
$\Rightarrow$ 使用前向傳播及反向傳播算法計算 $D^{(1)}, D^{(2)}, D^{(3)}$ 及 $J (Θ)$ ；
$\Rightarrow$ 展開 $D^{(1)}, D^{(2)}, D^{(3)}$ 獲得 $g r a d i e n t V e c$ 。

梯度檢測：可以減少梯度下降存在錯誤的風險。
$θ \in R^{n}$ ( $θ$ 是 $Θ^{(1)}, Θ^{(2)}, Θ^{(3)}$ 的展開向量)
$θ = θ_{1}, θ_{2}, θ_{3}, \dots, θ_{n}$
由於 $\frac{\partial}{\partial Θ} J (Θ) \approx \frac{J (Θ + ϵ) - J (Θ - ϵ)}{2 ϵ}$ ( $ϵ$ 取 $10^{- 4}$ 即可)
所以：
$\frac{\partial}{\partial θ_{1}} J (Θ) \approx \frac{J (θ_{1} + ϵ, θ_{2}, θ_{3}, \dots, θ_{n}) - J (θ_{1} - ϵ, θ_{2}, θ_{3}, \dots, θ_{n})}{2 ϵ}$
$\frac{\partial}{\partial θ_{2}} J (Θ) \approx \frac{J (θ_{1}, θ_{2} + ϵ, θ_{3}, \dots, θ_{n}) - J (θ_{1}, θ_{2} - ϵ, θ_{3}, \dots, θ_{n})}{2 ϵ}$
$\dots$
$\frac{\partial}{\partial θ_{n}} J (Θ) \approx \frac{J (θ_{1}, θ_{2}, θ_{3}, \dots, θ_{n} + ϵ) - J (θ_{1}, θ_{2}, θ_{3}, \dots, θ_{n} - ϵ)}{2 ϵ}$

$O c t a v e$ 中的實現代碼如下：

EPSILON = 1e-4;
for i = 1:n,
    thetaPlus = theta;
    thetaPlus(i) = thetaPlus(i) + EPSILON;
    thetaMinus = theta;
    thetaMinus(i) = thetaMinus(i) + EPSILON;
    gradApprox(i) = (J(thetaPlus)-J(thetaMinus))/(2*EPSILON);
end;

$c h e c k g r a d A p p r o x \approx D v e c$

梯度檢測總結：

利用反向傳播算法計算 $D v e c$ ( $D^{(1)}, D^{(2)}, D^{(3)}$ 的展開)；
利用梯度檢測算法計算 $g r a d A p p r o x$ ；
確保兩者相近；
關閉梯度檢測算法，用反向傳播算法學習。

確保在開始訓練模型之前關閉梯度檢測算法，否則運算會很慢。

隨機初始化：
當使用梯度下降或高級優化算法時，需要設置初始值：

optTheta = fminunc(@costFunction,initialTheta,options);

對於神經網絡來說，若 $θ$ 全初始化爲0，當進行反向傳播算法時，所有的單元會更新成相同的值，故採用下列代碼進行隨機初始化： $θ_{i j}^{(l)} \in [- ϵ, ϵ]$
如果 $T h e t a 1$ 爲 $10 \times 11$ 矩陣， $T h e t a 2$ 爲 $10 \times 11$ 矩陣， $T h e t a 3$ 爲 $1 \times 11$ 矩陣：

Theta1 = rand(10,11)*(2*INIT_EPSILON)-INIT_EPSILON;
Theta2 = rand(10,11)*(2*INIT_EPSILON)-INIT_EPSILON;
Theta3 = rand(1,11)*(2*INIT_EPSILON)-INIT_EPSILON;

$r a n d (x, y)$ 爲生成 $x \times y$ 矩陣，元素值 $\in (0, 1)$ ；
此處 $E P S I L O N$ 與梯度檢測時的不同，可以取 $0.12$ 。

總體總結：

訓練神經網絡的步驟：

搭建網絡架構(即神經元連接方式)；
輸入層單元數：特徵集 $x^{(i)}$ 的維度
輸出層單元數：分類的類別數
如果 $y \in {1, 2, 3, \dots, 10}$ ，要將其改寫成向量 $y = [\begin{matrix} 1 \\ 0 \\ 0 \\ ⋮ \\ 0 \end{matrix}] o r [\begin{matrix} 0 \\ 1 \\ 0 \\ ⋮ \\ 0 \end{matrix}] o r [\begin{matrix} 0 \\ 0 \\ 1 \\ ⋮ \\ 0 \end{matrix}] \dots [\begin{matrix} 0 \\ 0 \\ 0 \\ ⋮ \\ 1 \end{matrix}]$
默認規則：推薦設置一個隱藏層，如果隱藏層 $> 1$ ，則每個隱藏層包含相同數目的單元，對於單層的具體單元數，越多越好，但越多計算量越大，一般隱藏層單元數稍大於特徵數都可以接受；
隨機初始化權重，將權重初始化爲很小的值，接近於0；
執行前向傳播算法，獲取每個輸入 $x^{(i)}$ 對應的 $h_{Θ} (x^{(i)})$ ；
利用代碼計算代價函數 $J (Θ)$ ；
執行反向傳播算法計算 $\frac{\partial}{\partial Θ_{j k}^{(l)}} J (Θ)$ ：
$f o r i = 1 : m,$
${$
執行前向傳播算法和反向傳播算法利用 $(x^{(i)}, y^{(i)})$ 獲取激勵 $a^{(l)}$ 和誤差 $δ^{(l)} (f o r l = 2, \dots, L)$
$Δ^{(l)} := Δ^{(l)} + δ^{(l + 1)} (a^{(l)})^{T}$
$}$
計算 $\frac{\partial}{\partial Θ_{j k}^{(l)}} J (Θ)$ ；
利用梯度檢測比較反向傳播算法計算得到的 $\frac{\partial}{\partial Θ_{j k}^{(l)}} J (Θ)$ 和通過 $J (Θ)$ 梯度下降數值計算得到的 $\frac{\partial}{\partial Θ_{j k}^{(l)}} J (Θ)$ ，然後註釋掉梯度檢測的代碼；
利用梯度下降或最優化算法最小化 $J (Θ)$ ，得到參數 $Θ$ 。
注：對於神經網絡， $J (Θ)$ 是一個非凸函數，通常得到局部最小值。

Coursea-吳恩達-machine learning學習筆記（九）【week 5之Neural Networks: Learning】

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

Windows cmd窗口的切換目錄命令無法切換盤符

Coursea-吳恩達-machine learning學習筆記（十六）【week 9之Recommender Systems】

Coursea-吳恩達-machine learning學習筆記（十四）【week 8之Dimensionality Reduction】

Coursea-吳恩達-machine learning學習筆記（十二）【week 7之Support Vector Machines】

Coursea-吳恩達-machine learning學習筆記（九）【week 5之Neural Networks: Learning】

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結