TensorFlow入門-07.深度學習與深層神經網絡

0.深度學習的定義(維基百科):

一類通過多層非線性變換對高複雜性數據建模算法的合集。

1.深度學習與深層神經網絡的關係:

因爲深層神經網絡時實現“多層非線性變換”最常用的一種方法,所以在實際中基本上可以認爲深度學習就是深層神經網絡的代名詞。

2.深度學習的兩個重要特性:

    |- 多層:

    |- 非線性:

3.線性模型的定義:

在線性模型中,模型的輸出爲輸入的加權和。假設一個模型的輸出y和輸入xi滿足以下關係,那麼這個模型就是一個線性模型。

y= \sum_{i} w_i*x_i+b

4.線性模型名稱由來:

當模型的輸入只有一個的時候,x和y形成了二維座標系上的一條直線。類似的,當模型有n個輸入時,x和y形成了n+1維空間中的一個平面。

5.線性變換:

一個線性模型中通過輸入得到輸出的函數被稱爲一個線性變換。

線性模型的特點:任意線性模型的組合仍然是線性模型。

6.線性模型化簡推導:

以前向傳播爲例

a^{(1)}=xW^{(1)}y=a^{(1)}W^{(2)}

==》y=(xW^{1})W^{2}

由矩陣乘法的結合律:

==》y=x(W^{1}W^{2})=xW^{'} 

在上面的公式裏,W(1)和W(2)被表示爲了一個新的參數W':

W'=W^{(1)}W^{(2)}= \begin{bmatrix} W_{1,1} & W_{1,2} & W_{1,3}\\ W_{2,1} & W_{2,2} & W_{2,3} \end{bmatrix} \begin{bmatrix} W_{1,1}^{(2)}\\ W_{2,1}^{(2)}\\ W_{3,1}^{(2)} \end{bmatrix}= \begin{bmatrix} W_{1,1}^{(1)}W_{1,1}^{(2)}+W_{1,2}^{(1)}W_{2,1}^{(2)}+W_{1,3}^{(1)}W_{3,1}^{(2)}\\ W_{2,1}^{(1)}W_{1,1}^{(2)}+W_{2,2}^{(1)}W_{2,1}^{(2)}+W_{2,3}^{(1)}W_{3,1}^{(2)} \end{bmatrix}= \begin{bmatrix} W_{1}^{'}\\ W_{2}^{'} \end{bmatrix}

這樣輸入和輸出的更新就可以表示爲:

y=xW'=\begin{bmatrix} x_1 & x_2 \end{bmatrix} \begin{bmatrix} W_{1}'\\ W_{2}' \end{bmatrix}=\begin{bmatrix} W_{1}'x_1+W_{2}'x_2 \end{bmatrix}

7.線性模型的侷限性

從上面的例子可以看出,儘管前向傳播算法對應的神經網絡有兩層隱藏層,但是它和單層的神經網絡並沒有區別。以此類推,只通過線性變換,任意層的全連接神經網絡和單層神經網絡模型的表達能力沒有任何區別,而且他們都是線性模型。然而線性模型能夠解決的問題是有限的,這就是線性模型最大的侷限性。這也是深度學習要強調非線性的原因。

7.1 用線性模型解決線性可分問題:

解析:

問題:線性可分問題。

激活函數(Activation):使用的是線性激活函數linear。

分類情況:能分類(右下座標圖的識別結果顯示,該網絡能對數據點進行有效的區分)。

7.2 用線性模型解決線性不可分問題:

問題:合格零件是藍色點,不合格零件是黃色點。橫座標的值是一個零件的長度與平均長度的差值,縱座標的值是一個零件的質量與平均質量的差值。

激活函數(Activation):使用的是線性激活函數linear。

分類效果:不能分類(右下座標圖的識別結果顯示,該網絡不能對數據點進行有效的區分)。

7.3 用非線性模型解決線性不可分問題:

問題:合格零件是藍色點,不合格零件是黃色點。橫座標的值是一個零件的長度與平均長度的差值,縱座標的值是一個零件的質量與平均質量的差值。

激活函數(Activation):使用的是非線性激活函數ReLU。

分類效果:能分類(右下座標圖的識別結果顯示,該網絡能對數據點進行有效的區分)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章