深度學習基礎之-5.2非線性分類-多分類

原創

2020-07-03 18:59

提出問題

有如下1000個樣本和標籤：

樣本序號	1	2	3	…	1000
x1	0.0091867	0.10245588	-0.41033773	…	-0.20625644
x2	0.00666677	0.20947882	0.18172314	…	0.19683694
y	1	2	3	…	2

還好這個數據只有兩個特徵，所以我們可以用可視化的方法展示，如下圖：

定義神經網絡結構

輸入層兩個特徵值x1, x2
隱層8x2的權重矩陣和8x1的偏移矩陣
隱層由8個神經元構成
輸出層有3個神經元負責3分類，使用Softmax函數進行分類

前向計算

單樣本矩陣運算過程： $W_1^{(8 \times 2)} \cdot X^{(2 \times 1)} + B_1^{(8 \times 1)} => Z_1^{(8 \times 1)}$ $Sigmoid(Z1) => A_1^{(8 \times 1)}$ $W_2^{(3 \times 8)} \times A_1^{(8 \times 1)} + B_2^{(3 \times 1)} => Z_2^{(3 \times 1)}$ $Softmax(Z2) => A_2^{(3 \times 1)}$

損失函數

使用多分類交叉熵損失函數：

$J(w,b) = -{1 \over m} \sum^m_{i=1} \sum^n_{j=1} y_{ij} \ln (a_{ij})$

m爲樣本數，n爲類別數。

可以簡寫爲：

$J = -Y \ln A$

反向傳播

$\frac{\partial{J}}{\partial{A2}} \frac{\partial{A2}}{\partial{Z2}} = A2-Y => dZ2$

雖然這個求導結果和二分類一樣，但是過程截然不同，詳情請看6.4。

後續的梯度求解與9.1節一樣，只拷貝結論在這裏：

$dW2=dZ2 \times A1^T \tag{2}$

$dB2=dZ2 \tag{3}$

$W2^T \times dZ2 \odot A1 \odot (1-A1) => dZ1 \tag{4}$

$dW1= dZ1 \cdot X^T \tag{5}$

$dB1= dZ1 \tag{6}$
迭代了10000次，沒有到底損失函數小於0.06的條件。
分類結果圖示：

多分類的工作原理

使用以下參數測試：

eta = 0.1
batch_size = 10
n_hidden = 3
eps = 0.005

如果隱層只使用2個神經元，只能得到近似的線性結果，如下圖：

所以，隱層必須用3個神經元以上。以下是結果：

多分類損失函數值	分類結果(待優化)

https://github.com/microsoft/ai-edu/blob/master/B-教學案例與實踐/B6-神經網絡基本原理簡明教程/11.2-理解多分類的工作原理.md
https://github.com/microsoft/ai-edu/blob/master/B-教學案例與實踐/B6-神經網絡基本原理簡明教程/11.1-非線性多分類.md

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

深度學習基礎之-5.2非線性分類-多分類

提出問題

定義神經網絡結構

前向計算

損失函數

反向傳播

多分類的工作原理

AI 畫圖真刺激，手把手教你如何用 ComfyUI 來畫出刺激的圖

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

數據展示動態（跑分）顯示

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

校招算法崗面試-1

深度學習基礎之-4.1非線性迴歸-激活函數

深度學習基礎之-2.3簡單的神經網絡（單個輸入/多個輸入）做線性迴歸+特徵值歸一化

面試之-2.0集成學習Boosting和Bagging

深度學習基礎之-2.4梯度下降的三種形式（單變量，全批量，小批量）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結