深度神經網絡（Deep Neural Networks，以下簡稱DNN）是深度學習的基礎，而要理解DNN，首先我們要理解DNN模型，下面我們就對DNN的模型與前向傳播算法做一個總結。

1. 從感知機到神經網絡

　　　　在感知機原理小結中，我們介紹過感知機的模型，它是一個有若干輸入和一個輸出的模型，如下圖:

　　　　輸出和輸入之間學習到一個線性關係，得到中間輸出結果：

z = \sum i = 1 m w i x i + b

　　　　接着是一個神經元激活函數:

s i g n (z) = {- 1 1 z < 0 z \geq 0

　　　　從而得到我們想要的輸出結果1或者-1。

　　　　這個模型只能用於二元分類，且無法學習比較複雜的非線性模型，因此在工業界無法使用。

　　　　而神經網絡則在感知機的模型上做了擴展，總結下主要有三點：

　　　　1）加入了隱藏層，隱藏層可以有多層，增強模型的表達能力，如下圖實例，當然增加了這麼多隱藏層模型的複雜度也增加了好多。

　　　　2）輸出層的神經元也可以不止一個輸出，可以有多個輸出，這樣模型可以靈活的應用於分類迴歸，以及其他的機器學習領域比如降維和聚類等。多個神經元輸出的輸出層對應的一個實例如下圖，輸出層現在有4個神經元了。

　　　　3）對激活函數做擴展，感知機的激活函數是sign(z),雖然簡單但是處理能力有限，因此神經網絡中一般使用的其他的激活函數，比如我們在邏輯迴歸裏面使用過的Sigmoid函數，即：

f (z) = 1 1 + e - z

　　　　還有後來出現的tanx, softmax,和ReLU等。通過使用不同的激活函數，神經網絡的表達能力進一步增強。對於各種常用的激活函數，我們在後面再專門講。

2. DNN的基本結構

　　　　上一節我們瞭解了神經網絡基於感知機的擴展，而DNN可以理解爲有很多隱藏層的神經網絡。這個很多其實也沒有什麼度量標準, 多層神經網絡和深度神經網絡DNN其實也是指的一個東西，當然，DNN有時也叫做多層感知機（Multi-Layer perceptron,MLP）, 名字實在是多。後面我們講到的神經網絡都默認爲DNN。

　　　　從DNN按不同層的位置劃分，DNN內部的神經網絡層可以分爲三類，輸入層，隱藏層和輸出層,如下圖示例，一般來說第一層是輸出層，最後一層是輸出層，而中間的層數都是隱藏層。

　　　　層與層之間是全連接的，也就是說，第i層的任意一個神經元一定與第i+1層的任意一個神經元相連。雖然DNN看起來很複雜，但是從小的局部模型來說，還是和感知機一樣，即一個線性關係z=∑wixi+b加上一個激活函數σ(z)。

　　　　由於DNN層數多，則我們的線性關係係數w和偏倚b的數量也就是很多了。具體的參數在DNN是如何定義的呢？

　　　　首先我們來看看線性關係係數w的定義。以下圖一個三層的DNN爲例，第二層的第4個神經元到第三層的第2個神經元的線性係數定義爲w324。上標3代表線性係數w所在的層數，而下標對應的是輸出的第三層索引2和輸入的第二層索引4。你也許會問，爲什麼不是w342, 而是w324呢？這主要是爲了便於模型用於矩陣表示運算，如果是w324而每次進行矩陣運算是wTx+b，需要進行轉置。將輸出的索引放在前面的話，則線性運算不用轉置,即直接爲wx+b。總結下，第l−1層的第k個神經元到第l層的第j個神經元的線性係數定義爲wljk。注意，輸入層是沒有w參數的。

　　　　再來看看偏倚b的定義。還是以這個三層的DNN爲例，第二層的第三個神經元對應的偏倚定義爲b23。其中，上標2代表所在的層數，下標3代表偏倚所在的神經元的索引。同樣的道理，第三個的第一個神經元的偏倚應該表示爲b31。同樣的，輸入層是沒有偏倚參數b的。

3. DNN前向傳播算法數學原理

　　　　在上一節，我們已經介紹了DNN各層線性關係係數w,偏倚b的定義。假設我們選擇的激活函數是σ(z)，隱藏層和輸出層的輸出值爲a，則對於下圖的三層DNN,利用和感知機一樣的思路，我們可以利用上一層的輸出計算下一層的輸出，也就是所謂的DNN前向傳播算法。

　　　　對於第二層的的輸出a21,a22,a23，我們有：

a 21 = σ (z 21) = σ (w 211 x 1 + w 212 x 2 + w 213 x 3 + b 21)

a 22 = σ (z 22) = σ (w 221 x 1 + w 222 x 2 + w 232 x 3 + b 22)

a 23 = σ (z 23) = σ (w 231 x 1 + w 232 x 2 + w 233 x 3 + b 23)

　　　　對於第三層的的輸出a31，我們有：

a 31 = σ (z 31) = σ (w 311 a 21 + w 312 a 22 + w 313 a 23 + b 33)

　　　　將上面的例子一般化，假設第l−1層共有m個神經元，則對於第l層的第j個神經元的輸出alj，我們有：

a l j = σ (z l j) = σ (\sum k = 1 m w l j k a l - 1 k + b l j)

　　　　其中，如果l=2,則對於的a1k即爲輸入層的xk。

　　　　從上面可以看出，使用代數法一個個的表示輸出比較複雜，而如果使用矩陣法則比較的簡潔。假設第l−1層共有m個神經元，而第l層共有n個神經元，則第l層的線性係數w組成了一個n×m的矩陣Wl, 第l層的偏倚b組成了一個n×1的向量bl , 第l−1層的的輸出a組成了一個m×1的向量al−1，第l層的的未激活前線性輸出z組成了一個n×1的向量zl, 第l層的的輸出a組成了一個n×1的向量al。則用矩陣法表示，第l層的輸出爲：

a l = σ (z l) = σ (W l a l - 1 + b l)

　　　　這個表示方法簡潔漂亮，後面我們的討論都會基於上面的這個矩陣法表示來。

4. DNN前向傳播算法

　　　　有了上一節的數學推導，DNN的前向傳播算法也就不難了。所謂的DNN的前向傳播算法也就是利用我們的若干個權重係數矩陣W,偏倚向量b來和輸入值向量x進行一系列線性運算和激活運算，從輸入層開始，一層層的向後計算，一直到運算到輸出層，得到輸出結果爲值。

　　　　輸入: 總層數L，所有隱藏層和輸出層對應的矩陣W,偏倚向量b，輸入值向量x

　　　　輸出：輸出層的輸出aL

　　　　1）初始化a1=x

　　　　2) for l=2 to L, 計算：

a l = σ (z l) = σ (W l a l - 1 + b l)

　　　　最後的結果即爲輸出aL。

5. DNN前向傳播算法小結

　　　　單獨看DNN前向傳播算法，似乎沒有什麼大用處，而且這一大堆的矩陣W,偏倚向量b對應的參數怎麼獲得呢？怎麼得到最優的矩陣W,偏倚向量b呢？這個我們在講DNN的反向傳播算法時再講。而理解反向傳播算法的前提就是理解DNN的模型與前向傳播算法。這也是我們這一篇先講的原因。

（歡迎轉載，轉載請註明出處。歡迎溝通交流： [email protected]）

參考資料：

1） Neural Networks and Deep Learning by By Michael Nielsen

2） Deep Learning, book by Ian Goodfellow, Yoshua Bengio, and Aaron Courville

3） UFLDL Tutorial

深度神經網絡（DNN）模型與前向傳播算法

1. 從感知機到神經網絡

2. DNN的基本結構

3. DNN前向傳播算法數學原理

4. DNN前向傳播算法

5. DNN前向傳播算法小結

參考資料：

lgbm和xgboost實現代碼

行人檢測_目標檢測/識別_人臉識別數據集下載地址

行人檢測數據庫（包含9個常見數據庫）

經典損失函數：交叉熵（附tensorflow）

計算機會議排名等級

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結