機器學習複習(2)——神經網絡

原創

2018-12-10 21:33

神經網絡概述（BP推導）&CNN

神經網絡

神經元模型

基本結構：

BP網絡

三層神經網絡的推導

標準的推導
- 符號說明：
  - $W^{l}$ 表示 $l$ 到 $l+1$ 的權重矩陣，維數爲： $l+1$ 的節點數 $\times l$ 的節點數
  - $f$ 表示激活函數
  - $z^l$ 表示的是 $l$ 層的輸入 $a^l$ 表示 $l$ 的輸出（即經過了激活函數）
  - 輸入爲一個樣本（ $b$ 個屬性）
- 前向計算（以三層網絡爲例）：
  - $z^{(2)}=W^{(1)}x+b^{(1)}$
  - $a^{(2)}=f(z^{(2)})$
  - $z^{(3)}=W^{(2)}x+b^{(2)}$
  - 更加普遍的：
    $z^{(l+1)}=W^{(l)}a^{(l)}+b^{(l)}\\ a^{(l+1)}=f(z^{(l+1)})$
  - 假設損失函數爲 $J$
- 反向（梯度計算：矩陣形式）:
  - 每一層的梯度： $\delta^{(l)}=(W^{(l)})^T\delta^{(l+1)}\bigodot f'(z^{(l)})$
  - 每一層的權重的梯度： $\bigtriangledown_{W^{(l)}}=\delta^{(l+1)}(a^{(l)})^T$
  - 每一層的偏置的梯度： $\bigtriangledown_{b^{(l)}}=\delta^{(l+1)}$
- 一些說明：
  - 最外層（包括損失函數的要單獨處理）
  - $\bigodot$ 之對應元素相乘
  - $f$ 如果是對於每一個元素的操作，則對於內部的求導最終得到的矩陣維數不變。
    
    $f^{'}([z^1,z^2,z^3])=[f^{'}(z^1),f^{'}(z^2),f^{'}(z^3)]$
  - 如果原本前向計算的時候是： $z^{(l+1)}=(W^{(l)})^Ta^{(l)}+b^{(l)}$ 此時維數與開始相比是轉置關係，同時最終求導得到的結果應該是整體轉置。
- 一些推導（根據單個元素的計算）
  - 對於 $l$ 層的 $i$ 個節點: $\delta_i^{(l)}=(\sum_{j=1}^{s_{l+1}}W_{ji}^{(l)}\delta_j^{(l+1)})f'(z_j^{(l)})$
  - $\frac{\partial J}{\partial W_{ij}^{(l)}}=\delta_i^{(l+1)}a_j^{(l)}$ 由此寫出矩陣形式就是c.ii

學習算法流程：

卷積神經網絡

基本結構

卷積
池化
全連接

卷積神經網絡的計算

上面的動圖展示了一個 $3 \times 3$ 的核是如何操作的，實際上就是對應元素相乘再求和
一些理解：
- 實際上這裏的濾波可以類比簡單信號的高頻低頻濾波，實際上都是對某一特定的信號有較高/較低的輸出。（同神經網絡的激活）
- 一層一層的卷積實際上也是前面的實現低階的特徵，後面越來越高
- 在圖像中
  - rgb圖中：width*height*depth(channel =3 some times)
  - 因爲需要圖像保持不變性（一個圖片中的特質出現在上面或者下面應該都能夠識別）-卷積神經網絡能夠不同位置共享權重（如下圖）
對於邊緣的處理（希望能夠保持和原本的圖像數據一致）：zero padding 操作：即在卷積之前先進行以0填充周圍一圈。
- 計算說明：原尺寸 $n \times n$ 卷積核 $f \times f$ 如果不進行填充，卷積後： $n-f+1 \times n-f+1$ 若先填充 $p$ 層則，卷積後 $n+2p-f+1 \times n+2p-f+1$ 只需滿足 $p=\frac{f-1}{2}$ 即可使前後尺寸不變
- valid卷積是不填充，same是填充（具體實現中）
- 多個filters時：提取多個特徵（輸出不再是depth=1）
- pooling：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

「機器學習_8」Bag-of-Words

Bag-of-Words 1.文字問題 2. 什麼是Bag-of-Words(具體例子） 3. 侷限性 1.文字問題文本建模的一個問題是它很雜亂，機器學習算法之類的技術更喜歡定義明確的

2020-07-08 11:01:54

迴歸損失函數：L1 Loss, L2 Loss, Smooth L1 Loss

講解的很清楚： https://www.cnblogs.com/wangguchangqing/p/12021638.html

2020-07-08 10:39:04

感知機中的關鍵問題：點到平面的距離，和梯度更新的符號

感知機的原理、以及學習方法，還是比較簡單的，參考： https://www.pkudodo.com/2018/11/18/1-4/ 但其中有2點關鍵，不是特別好理解： 1、關於點到平面的距離：參考：https://www.jian

2020-07-08 10:27:04

變身漫畫道具玩了沒？這樣的 AI 人像特效機器學習服務幫你實現

近期，抖音上一款 “變身漫畫” 的特效刷爆“我的關注”，二次元漫畫樣式的畫風更是讓大家欲罷不能。從明星到路人，從大朋友到小朋友紛紛參與其中，抖音 App 中“變身漫畫”話題頁顯示約有 1851 萬餘人使用該道具。如今，此類視頻 / 圖片

2020-07-14 12:03:51

深度學習_目標檢測_FPN論文詳解

FPN的創新點多層特徵特徵融合解決了目標檢測中的多尺度問題，通過簡單的網絡連接改變，在基本不增加原有模型計算量的情況下，大幅度提升小物體（small object）的檢測性能。在物體檢測裏面，有限計算量情況下，網絡的深

2020-07-08 11:57:07

深度學習_目標檢測_“YOLOv5”詳解（持續更新）

YOLOv5可以方便的進行工程化部署： YOLOv5（PyTorch）−>ONNX−>CoreML−>iosYOLOv5（PyTorch） -> ONNX -> CoreML -> iosYOLOv5（PyTorch）−>ONNX

2020-07-08 11:57:07

分類問題中的決策面畫法 (直觀理解plt.contour的用法)

摘要通過分類問題中決策面的繪製過程直觀理解matplotlib中contour的用法，主要包括對 np.meshgrid 和plt.contour的直觀理解。前言分類問題中，我們習慣用2維的dmeo做例子，驗證算法的有效性。

张王李刘赵孙杨

2020-07-08 11:10:55

KNN算法第二章 Pandas & sklearn 機器學習實戰 Machine Learning in action

本專欄計劃藉助Pandas與sklearn重新實現書中的實戰案例。 k-近鄰算法1. KNN算法流程2. KNN改進約會網站的配對效果2.1 數據準備：從文本中解析數據2.2 數據可視化：散點圖2.3 數據處理：歸一化數值2.4

2020-07-08 11:09:44

[R]聚類算法:k-means模組

延伸<[Excel]k-means聚類算法的應用，以評價現有供應商的水平為例。>文章，同時恰巧在圖書館看到一本R語言機器學習書籍，因此正好可進一步瞭解如何用R語言來實現k-means算法和應用，一併將k-means模組建立起來，做為未來參

2020-07-08 10:38:53

python--內置函數

1、python內置函數：類型轉換數學運算常用 int() max() all() range() help() float() min() any() set() format() long() sum() type()

2020-07-08 10:38:40

吳恩達機器學習課程思維導圖

Github上黃博整理的吳恩達機器學習課程的資料，用xmind轉化成思維導圖，方便查看和記憶。參考自：https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes

2020-07-08 09:20:14

機器學習筆記(七)--理解batch_dot函數

在keras中有batch_dot函數，用於計算兩個多維矩陣，官方註釋如下： def batch_dot(x, y, axes=None): """Batchwise dot product. `batch_dot`

2020-07-08 09:20:14

置信學習：讓樣本中的“髒數據“原形畢露

在實際工作中，你是否遇到過這樣一個問題或痛點：無論是通過哪種方式獲取的標註數據，數據標註質量可能不過關，存在一些錯誤？亦或者是數據標註的標準不統一、存在一些歧義？特別是badcase反饋回來，發現訓練集標註的居然和badcase一樣？如下

2020-07-08 09:16:27

simple faster rcnn解讀一

一:代碼框架和跑通simple faster rcnn遇到的問題代碼選擇：https://github.com/chenyuntc/simple-faster-rcnn-pytorch；本文主要是自己將代碼跑通中遇到的問題以及代碼解讀

2020-07-08 09:02:08

決策樹python實現（ID3 和 C4.5）

最近在看機器學習實戰，記錄一些不寫代碼，真的很難發現的問題。 ID3代碼見github ID3的問題： 1、從信息增益的計算方法來看，信息增益無法直接處理連續取值的的屬性數據，只能處理離散型的數據。 2、信息增益的計算方法需要對某

2020-07-08 08:32:14

24小時熱門文章

最新文章

最新評論文章