神經網絡和反向傳播算法推導

原創

2018-09-03 08:55

注：由於自己畫圖實在太難畫，本文中基本所有插圖來源於算法糰子機器學習班，請勿轉載

1.普通的機器學習模型：

其實，基本上所有的基本機器學習模型都可以概括爲以下的特徵：根據某個函數，將輸入計算並輸出。圖形化表示爲下圖：

當我們的g(h)爲sigmoid函數時候，它就是一個邏輯迴歸的分類器。當g(h)是一個只能取0或1值的函數時，它就是一個感知機。那麼問題來了，這一類模型有明顯缺陷：當模型線性不可分的時候，或者所選取得特徵不完備（或者不夠準確）的時候，上述分類器效果並不是特別喜人。如下例：

我們可以很輕易的用一個感知機模型（感知器算法）來實現一個邏輯與（and），邏輯或（or）和邏輯或取反的感知器模型，（感知器模型算法鏈接），因爲上述三種模型是線性可分的。但是，如果我們用感知器模型取實現一個邏輯非異或（相同爲1，不同爲0），我們的訓練模型的所有輸出都會是錯誤的，該模型線性不可分！

2.神經網絡引入：

我們可以構造以下模型：

（其中，A代表邏輯與，B代表邏輯或取反，C代表邏輯或）

上述模型就是一個簡單的神經網絡，我們通過構造了三個感知器，並將兩個感知器的輸出作爲了另一個感知其的輸入，實現了我們想要的邏輯非異或模型，解決了上述的線性不可分問題。那麼問題是怎麼解決的呢？其實神經網絡的實質就是每一層隱藏層（除輸入和輸出的節點，後面介紹）的生成，都生成了新的特徵，新的特徵在此生成新的特徵，知道最新的特徵能很好的表示該模型爲止。這樣就解決了線性不可分或特徵選取不足或不精確等問題的產生。（以前曾介紹過線性不可分的實質就是特徵不夠）

神經網絡的模型結構如下：

（藍色，紅色，黃色分別代表輸入層，影藏層，輸出層）

在此我們介紹的神經網絡中的每一個訓練模型用的都是邏輯迴歸模型即g(h)是sigmoid函數。

我們可以將神經網絡表示如下：

3.神經網絡的預測結果（hypothesis函數）的計算和CostFunction的計算

預測結果的計算其實與普通的邏輯迴歸計算沒有多大區別。只是有時候需要將某幾個邏輯迴歸的輸出作爲其他邏輯迴歸模型的輸入罷了，比如上例的輸出結果爲：

那麼CostFunction的計算又和邏輯迴歸的CostFunction計算有什麼區別呢？

邏輯迴歸的CostFunction如下：

上述式子的本質是將預測結果和實際標註的誤差用某一種函數估算，但是我們的神經網絡模型有時候輸出不止一個，所以，神經網絡的誤差估算需要將輸出層所有的CostFunction相加：

k：代表第幾個輸出。

補充：神經網絡可以解決幾分類問題？

理論上，當輸出單元只有一個時，可以解決2分類問題，當輸出單元爲2時可以解決4分類問題，以此類推...

實質上，我們三個輸出單元時，可以解決三分類問題（[1,0,0],[0,1,0],[0,0,1]）,爲什麼如此設計？暫時留白，以後解決

ps：面試題：一個output機器，15%可能輸出1，85%輸出0，構造一個新的機器，使0,1輸出可能性相同？答：讓output兩次輸出01代表0，10代表1，其餘丟棄

4.神經網絡的訓練

這兒也同於logistic迴歸，所謂的訓練也就是調整w的權值，讓我們再一次把神經網絡的CostFunction寫出來！

W代表所有層的特徵權值，Wij(l)代表第l層的第i個元素與第j個特徵的特徵權值

m代表樣本個數，k代表輸出單元個數

hw(x(i))k代表第i個樣本在輸出層的第k個樣本的輸出 y(i)k代表第i個樣本的第k個輸出

然後同於logistic迴歸，將所有的W更新即可。難處在於此處的偏導數怎麼求？首先得說說鏈式求導法則：

所以我們可以有：

接下來的問題就是有theta了，當我們要求的錯誤變化率是最後一層（最後一層既是輸出層的前一層）且只看一個輸出神經元時則：

多個相加即可

那麼中間層次的神經元變化率如何求得呢？我們需要研究l層和了+1層之間的關係，如下圖：

第l層的第i個Z與第l層的第i個a的關係就是取了一個sigmod函數，然而第l層的第i個a與和其對應的w相乘後在加上其他的節點與其權值的乘積構成了第l+1層的Z，好拗口，好難理解啊，看下式：

大體也就是這麼個情況，具體的步驟爲：

1.利用前向傳播算法，計算出每個神經元的輸出

2.對於輸出層的每一個輸出，計算出其所對應的誤差

3.計算出每個神經元的錯誤變化率即：

4.計算CostFunction的微分，即：

5.代碼：

點擊打開鏈接

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

「機器學習_8」Bag-of-Words

Bag-of-Words 1.文字問題 2. 什麼是Bag-of-Words(具體例子） 3. 侷限性 1.文字問題文本建模的一個問題是它很雜亂，機器學習算法之類的技術更喜歡定義明確的

2020-07-08 11:01:54

迴歸損失函數：L1 Loss, L2 Loss, Smooth L1 Loss

講解的很清楚： https://www.cnblogs.com/wangguchangqing/p/12021638.html

2020-07-08 10:39:04

感知機中的關鍵問題：點到平面的距離，和梯度更新的符號

感知機的原理、以及學習方法，還是比較簡單的，參考： https://www.pkudodo.com/2018/11/18/1-4/ 但其中有2點關鍵，不是特別好理解： 1、關於點到平面的距離：參考：https://www.jian

2020-07-08 10:27:04

變身漫畫道具玩了沒？這樣的 AI 人像特效機器學習服務幫你實現

近期，抖音上一款 “變身漫畫” 的特效刷爆“我的關注”，二次元漫畫樣式的畫風更是讓大家欲罷不能。從明星到路人，從大朋友到小朋友紛紛參與其中，抖音 App 中“變身漫畫”話題頁顯示約有 1851 萬餘人使用該道具。如今，此類視頻 / 圖片

2020-07-14 12:03:51

深度學習_目標檢測_FPN論文詳解

FPN的創新點多層特徵特徵融合解決了目標檢測中的多尺度問題，通過簡單的網絡連接改變，在基本不增加原有模型計算量的情況下，大幅度提升小物體（small object）的檢測性能。在物體檢測裏面，有限計算量情況下，網絡的深

2020-07-08 11:57:07

深度學習_目標檢測_“YOLOv5”詳解（持續更新）

YOLOv5可以方便的進行工程化部署： YOLOv5（PyTorch）−>ONNX−>CoreML−>iosYOLOv5（PyTorch） -> ONNX -> CoreML -> iosYOLOv5（PyTorch）−>ONNX

2020-07-08 11:57:07

分類問題中的決策面畫法 (直觀理解plt.contour的用法)

摘要通過分類問題中決策面的繪製過程直觀理解matplotlib中contour的用法，主要包括對 np.meshgrid 和plt.contour的直觀理解。前言分類問題中，我們習慣用2維的dmeo做例子，驗證算法的有效性。

张王李刘赵孙杨

2020-07-08 11:10:55

KNN算法第二章 Pandas & sklearn 機器學習實戰 Machine Learning in action

本專欄計劃藉助Pandas與sklearn重新實現書中的實戰案例。 k-近鄰算法1. KNN算法流程2. KNN改進約會網站的配對效果2.1 數據準備：從文本中解析數據2.2 數據可視化：散點圖2.3 數據處理：歸一化數值2.4

2020-07-08 11:09:44

[R]聚類算法:k-means模組

延伸<[Excel]k-means聚類算法的應用，以評價現有供應商的水平為例。>文章，同時恰巧在圖書館看到一本R語言機器學習書籍，因此正好可進一步瞭解如何用R語言來實現k-means算法和應用，一併將k-means模組建立起來，做為未來參

2020-07-08 10:38:53

python--內置函數

1、python內置函數：類型轉換數學運算常用 int() max() all() range() help() float() min() any() set() format() long() sum() type()

2020-07-08 10:38:40

吳恩達機器學習課程思維導圖

Github上黃博整理的吳恩達機器學習課程的資料，用xmind轉化成思維導圖，方便查看和記憶。參考自：https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes

2020-07-08 09:20:14

機器學習筆記(七)--理解batch_dot函數

在keras中有batch_dot函數，用於計算兩個多維矩陣，官方註釋如下： def batch_dot(x, y, axes=None): """Batchwise dot product. `batch_dot`

2020-07-08 09:20:14

置信學習：讓樣本中的“髒數據“原形畢露

在實際工作中，你是否遇到過這樣一個問題或痛點：無論是通過哪種方式獲取的標註數據，數據標註質量可能不過關，存在一些錯誤？亦或者是數據標註的標準不統一、存在一些歧義？特別是badcase反饋回來，發現訓練集標註的居然和badcase一樣？如下

2020-07-08 09:16:27

simple faster rcnn解讀一

一:代碼框架和跑通simple faster rcnn遇到的問題代碼選擇：https://github.com/chenyuntc/simple-faster-rcnn-pytorch；本文主要是自己將代碼跑通中遇到的問題以及代碼解讀

2020-07-08 09:02:08

決策樹python實現（ID3 和 C4.5）

最近在看機器學習實戰，記錄一些不寫代碼，真的很難發現的問題。 ID3代碼見github ID3的問題： 1、從信息增益的計算方法來看，信息增益無法直接處理連續取值的的屬性數據，只能處理離散型的數據。 2、信息增益的計算方法需要對某

2020-07-08 08:32:14

24小時熱門文章

最新文章

最新評論文章