文章目錄

第十二章網絡搭建及訓練

目錄
常用框架介紹
常用框架對比(表格展示) 16個最棒的深度學習框架 https://baijiahao.baidu.com/s?id=1599943447101946075&wfr=spider&for=pc
基於tensorfolw網絡搭建實例
CNN訓練注意事項
訓練技巧
深度學習模型訓練痛點及解決方法 https://blog.csdn.net/weixin_40581617/article/details/80537559
深度學習模型訓練流程 https://blog.csdn.net/Quincuntial/article/details/79242364
深度學習模型訓練技巧 https://blog.csdn.net/w7256037/article/details/52071345
https://blog.csdn.net/u012033832/article/details/79017951
https://blog.csdn.net/u012968002/article/details/72122965

深度學習幾大難點 https://blog.csdn.net/m0_37867246/article/details/79766371

CNN訓練注意事項

http://www.cnblogs.com/softzrp/p/6724884.html
1.用Mini-batch SGD對神經網絡做訓練的過程如下：

不斷循環：

①  採樣一個 batch 數據( ( 比如 32 張）

②前向計算得到損失 loss

③  反向傳播計算梯度( 一個 batch）

④  用這部分梯度迭代更新權重參數

2.去均值

去均值一般有兩種方式：第一種是在每個像素點都算出3個顏色通道上的平均值，然後對應減去，如AlexNet。第二種是在整個樣本上就只得到一組數，不分像素點了，如VGGNet。
3.權重初始化
4.Dropout

第十二章 TensorFlow、pytorch和caffe介紹

12.1 TensorFlow

12.1.1 TensorFlow是什麼？

TensorFlow支持各種異構平臺，支持多CPU/GPU、服務器、移動設備，具有良好的跨平臺的特性；TensorFlow架構靈活，能夠支持各種網絡模型，具有良好的通用性；此外，TensorFlow架構具有良好的可擴展性，對OP的擴展支持，Kernel特化方面表現出衆。

TensorFlow最初由Google大腦的研究員和工程師開發出來，用於機器學習和神經網絡方面的研究，於2015.10宣佈開源，在衆多深度學習框架中脫穎而出，在Github上獲得了最多的Star量。

12.1.2 TensorFlow的設計理念是什麼？

TensorFlow的設計理念主要體現在兩個方面：

（1）將圖定義和圖運算完全分開。
TensorFlow 被認爲是一個“符號主義”的庫。我們知道，編程模式通常分爲命令式編程（imperative style programming）和符號式編程（symbolic style programming）。命令式編程就是編寫我們理解的通常意義上的程序，很容易理解和調試，按照原有邏輯執行。符號式編程涉及很多的嵌入和優化，不容易理解和調試，但運行速度相對有所提升。現有的深度學習框架中，Torch 是典型的命令式的，Caffe、MXNet 採用了兩種編程模式混合的方法，而 TensorFlow 完全採用符號式編程。

符號式計算一般是先定義各種變量，然後建立一個數據流圖，在數據流圖中規定各個變量間的計算關係，最後需要對據流圖進行編譯，但此時的數據流圖還是一個空殼兒，裏面沒有任何實際數據，只有把需要運算的輸入放進去後，才能在整個模型中形成數據流，從而形成輸出值。

例如：

t = 8 + 9
print(t)

在傳統的程序操作中，定義了 t 的運算，在運行時就執行了，並輸出 17。而在 TensorFlow中，數據流圖中的節點，實際上對應的是 TensorFlow API 中的一個操作，並沒有真正去運行：

import tensorflow as tf
t = tf.add(8,9)
print(t)

#輸出  Tensor{"Add_1:0",shape={},dtype=int32}

（2）TensorFlow 中涉及的運算都要放在圖中，而圖的運行只發生在會話（session）中。開啓會話後，就可以用數據去填充節點，進行運算；關閉會話後，就不能進行計算了。因此，會話提供了操作運行和 Tensor 求值的環境。

例如：

import tensorflow as tf
#創建圖
a = tf.constant([4.0,5.0])
b = tf.constant([6.0,7.0])
c = a * b
#創建會話
sess  = tf.Session()
#計算c
print(sess.run(c))   #進行矩陣乘法，輸出[24.,35.]
sess.close()

12.1.3 TensorFlow特點有哪些？

1.高度的靈活性

TensorFlow 並不僅僅是一個深度學習庫，只要可以把你的計算過程表示稱一個數據流圖的過程，我們就可以使用 TensorFlow 來進行計算。TensorFlow 允許我們用計算圖的方式建立計算網絡，同時又可以很方便的對網絡進行操作。用戶可以基於 TensorFlow 的基礎上用 python 編寫自己的上層結構和庫，如果TensorFlow沒有提供我們需要的API的，我們也可以自己編寫底層的 C++ 代碼，通過自定義操作將新編寫的功能添加到 TensorFlow 中。

2.真正的可移植性

TensorFlow 可以在 CPU 和 GPU 上運行，可以在臺式機、服務器、移動設備上運行。你想在你的筆記本上跑一下深度學習的訓練，或者又不想修改代碼，想把你的模型在多個CPU上運行，亦或想將訓練好的模型放到移動設備上跑一下，這些TensorFlow都可以幫你做到。

3.多語言支持

TensorFlow採用非常易用的python來構建和執行我們的計算圖，同時也支持 C++ 的語言。我們可以直接寫python和C++的程序來執行TensorFlow，也可以採用交互式的ipython來方便的嘗試我們的想法。當然，這只是一個開始，後續會支持更多流行的語言，比如Lua，JavaScript 或者R語言。

4.豐富的算法庫

TensorFlow提供了所有開源的深度學習框架裏，最全的算法庫，並且在不斷的添加新的算法庫。這些算法庫基本上已經滿足了大部分的需求，對於普通的應用，基本上不用自己再去自定義實現基本的算法庫了。

5.完善的文檔

TensorFlow的官方網站，提供了非常詳細的文檔介紹，內容包括各種API的使用介紹和各種基礎應用的使用例子，也包括一部分深度學習的基礎理論。

自從宣佈開源以來，大量人員對TensorFlow做出貢獻，其中包括Google員工，外部研究人員和獨立程序員，全球各地的工程師對TensorFlow的完善，已經讓TensorFlow社區變成了Github上最活躍的深度學習框架。

12.1.4 TensorFlow的系統架構是怎樣的？

整個系統從底層到上層可分爲七層：

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-1e2w6K7I-1575791498351)(.\img\ch12\1.bmp)]

設備層：硬件計算資源，支持CPU、GPU

網絡層：支持兩種通信協議

數值計算層：提供最基礎的計算，有線性計算、卷積計算

高維計算層：數據的計算都是以數組的形式參與計算

計算圖層：用來設計神經網絡的結構

工作流層：提供輕量級的框架調用

構造層：最後構造的深度學習網絡可以通過TensorBoard服務端可視化

12.1.5 TensorFlow編程模型是怎樣的？

TensorFlow的編程模型：讓向量數據在計算圖裏流動。那麼在編程時至少有這幾個過程：1.構建圖，2.啓動圖，3.給圖輸入數據並獲取結果。

1.構建圖

TensorFlow的圖的類型是tf.Graph，它包含着計算節點和tensor的集合。

這裏引用了兩個新概念：tensor和計算節點。
我們先介紹tensor，一開始我們就介紹了，我們需要把數據輸入給啓動的圖才能獲取計算結果。那麼問題來了，在構建圖時用什麼表示中間計算結果？這個時候tensor的概念就需要引入了。
類型是tf.Tensor，代表某個計算節點的輸出，一定要看清楚是“代表”。它主要有兩個作用：

1.構建不同計算節點之間的數據流

2.在啓動圖時，可以設置某些tensor的值，然後獲取指定tensor的值。這樣就完成了計算的輸入輸出功能。

如下代碼所示：

inImage = tf.placeholder(tf.float32,[32,32,3],"inputImage")
processedImage = tf.image.per_image_standardization(inImage,"processedImage")

這裏inImage和processedImage都是tensor類型。它們代表着計算節點輸出的數據，數據的值具體是多少在啓動圖的時候才知道。上面兩個方法調用都傳遞了一個字符串，它是計算節點的名字，最好給節點命名，這樣我們可以在圖上調用get_tensor_by_name(name)獲取對應的tensor對象，十分方便。（tensor名字爲“<計算節點名字>:<tensor索引>”）

創建tensor時，需要指定類型和shape。對不同tensor進行計算時要求類型相同，可以使用 tf.cast 進行類型轉換。同時也要求 shape (向量維度)滿足運算的條件，我們可以使用 tf.reshape 改變shape。

現在瞭解計算節點的概念，其功能是對tensor進行計算、創建tensor或進行其他操作，類型是tf.Operation。獲取節點對象的方法爲get_operation_by_name(name)。

構建圖，如下代碼：

g=tf.Graph()

with g.as_default():
    input_data=tf.placeholder(tf.float32,[None,2],"input_data")
    input_label=tf.placeholder(tf.float32,[None,2],"input_label")

    W1=tf.Variable(tf.truncated_normal([2,2]),name="W1")
    B1=tf.Variable(tf.zeros([2]),name="B1")

    output=tf.add(tf.matmul(input_data,W1),B1,name="output")
    cross_entropy=tf.nn.softmax_cross_entropy_with_logits(logits=output,labels=input_label)

    train_step=tf.train.AdamOptimizer().minimize(cross_entropy,name="train_step")

    initer=tf.global_variables_initializer()

上面的代碼中我們創建了一個圖，並在上面添加了很多節點。我們可以通過調用get_default_graph()獲取默認的圖。

Input_data，input_label，W1，B1，output，cross_entropy都是tensor類型，train_step，initer，是節點類型。

有幾類tensor或節點比較重要，下面介紹一下：

1.placeholder

Tensorflow，顧名思義， tensor代表張量數據，flow代表流，其最初的設計理念就是構建一張靜態的數據流圖。圖是有各個計算節點連接而成，計算節點之間流動的便是中間的張量數據。要想讓張量數據在我們構建的靜態計算圖中流動起來，就必須有最初的輸入數據流。而placeholder，翻譯過來叫做佔位符，顧名思義，是給我們的輸入數據提供一個接口，也就是說我們的一切輸入數據，例如訓練樣本數據，超參數數據等都可以通過佔位符接口輸送到數據流圖之中。使用實例如下代碼：

import tensorflow as tf
x = tf.placeholder(dtype=tf.float32,shape=[],name='x')
y = tf.placeholder(dtpe=tf.float32,shape=[],nmae='y')
z = x*y
with tf.Session() as sess:
	prod = sess.run(z,feed_dict={x:1.,y:5.2})
	print(prod)
[out]:5.2

2. variable

無論是傳統的機器學習算法，例如線性支持向量機（Support Vector Machine, SVM)，其數學模型爲y = <w,x> + b，還是更先進的深度學習算法，例如卷積神經網絡（Convolutional Neural Network， CNN）單個神經元輸出的模型y = w*x + b。可以看到，w和b就是我們要求的模型，模型的求解是通過優化算法（對於SVM，使用
SMO[1]算法，對於CNN，一般基於梯度下降法）來一步一步更新w和b的值直到滿足停止條件。因此，大多數機器學習的模型中的w和b實際上是以變量的形式出現在代碼中的，這就要求我們在代碼中定義模型變量。

import tensorflow as tf
a = tf.Variable(2.)
b = tf.Variable(3.)
with tf.Session() as sess:
	sess.run(tf.global_variables_initializer()) #變量初始化
    print(sess.run(a*b))
[out]:6.

[1] Platt, John. “Sequential minimal optimization: A fast algorithm for training support vector machines.” (1998).

3. initializer

由於tensorflow構建的是靜態的計算流圖，在開啓會話之前，所有的操作都不會被執行。因此爲了執行在計算圖中所構建的賦值初始化計算節點，需要在開啓會話之後，在會話環境下運行初始化。如果計算圖中定義了變量，而會話環境下爲執行初始化命令，則程序報錯，代碼如下：

import tensorflow as tf
a = tf.Variable(2.)
b = tf.Variable(3.)
with tf.Session() as sess:
	#sess.run(tf.global_variables_initializer()) #註釋掉初始化命令
    print(sess.run(a*b))
[Error]: Attempting to use uninitialized value Variable

2.啓動圖

先了解session的概念，然後才能更好的理解圖的啓動。
圖的每個運行實例都必須在一個session裏，session爲圖的運行提供環境。Session的類型是tf.Session，在實例化session對象時我們需要給它傳遞一個圖對象，如果不顯示給出將使用默認的圖。Session有一個graph屬性，我們可以通過它獲取session對應的圖。

代碼如下：

numOfBatch=5
datas=np.zeros([numOfBatch,2],np.float32)
labels=np.zeros([numOfBatch,2],np.float32)

sess=tf.Session(graph=g)
graph=sess.graph
sess.run([graph.get_operation_by_name("initer")])

dataHolder=graph.get_tensor_by_name("input_data:0")
labelHolder=graph.get_tensor_by_name("input_label:0")
train=graph.get_operation_by_name("train_step")
out=graph.get_tensor_by_name("output:0")

for i inrange(200):
   result=sess.run([out,train],feed_dict={dataHolder:datas,labelHolder:labels})
   if i%100==0:
       saver.save(sess,"./moules")

sess.close()

代碼都比較簡單，就不介紹了。不過要注意2點：1.別忘記運行初始化節點，2.別忘記close掉session對象以釋放資源。

3.給圖輸入數據並獲取結果

代碼：

for i inrange(200):
    result=sess.run([out,train],feed_dict={dataHolder:datas,labelHolder:labels})

這裏主要用到了session對象的run方法，它用來運行某個節點或tensor並獲取對應的值。我們一般會一次傳遞一小部分數據進行mini-batch梯度下降來優化模型。

我們需要把我們需要運行的節點或tensor放入一個列表，然後作爲第一個參數(不考慮self)傳遞給run方法，run方法會返回一個計算結果的列表，與我們傳遞的參數一一對應。

如果我們運行的節點依賴某個placeholder，那我們必須給這個placeholder指定值，怎麼指定代碼裏面很清楚，給關鍵字參數feed_dict傳遞一個字典即可，字典裏的元素的key是placeholder對象，value是我們指定的值。值的數據的類型必須和placeholder一致，包括shape。值本身的類型是numpy數組。

這裏再解釋一個細節，在定義placeholder時代碼如下：

input_data=tf.placeholder(tf.float32,[None,2],"input_data")
input_label=tf.placeholder(tf.float32,[None,2],"input_label")

shape爲[None,2]，說明數據第一個維度是不確定的，然後TensorFlow會根據我們傳遞的數據動態推斷第一個維度，這樣我們就可以在運行時改變batch的大小。比如一個數據是2維，一次傳遞10個數據對應的tensor的shape就是[10,2]。可不可以把多個維度指定爲None？理論上不可以！

12.1.6 如何基於tensorflow搭建VGG16

介紹完關於tensorflow的基礎知識，是時候來一波網絡搭建實戰了。雖然網上有很多相關教程，但我想從最標準的tensorflow代碼和語法出發（而不是調用更高級的API，失去了原來的味道），向大家展示如何搭建其標準的VGG16網絡架構。話不多說，上代碼：

import numpy as np
import tensorflow as tf

def get_weight_variable(shape):
    return tf.get_variable('weight', shape=shape, initializer=tf.truncated_normal_initializer(stddev=0.1))

def get_bias_variable(shape):
    return tf.get_variable('bias', shape=shape, initializer=tf.constant_initializer(0))

def conv2d(x, w, padding = 'SAME', s=1):
    x = tf.nn.conv2d(x, w, strides=[1, s, s, 1], padding = padding)
    return x

def maxPoolLayer(x):
    return tf.nn.max_pool(x, ksize = [1, 2, 2, 1],
                          strides = [1, 2, 2, 1], padding = 'SAME')

def conv2d_layer(x,in_chs, out_chs, ksize, layer_name):
    with tf.variable_scope(layer_name):
        w = get_weight_variable([ksize, ksize, in_chs, out_chs])
        b = get_bias_variable([out_chs])
        y = tf.nn.relu(tf.bias_add(conv2d(x,w,padding = 'SAME', s=1), b))
    return y

def fc_layer(x,in_kernels, out_kernels, layer_name):
    with tf.variable_scope(layer_name):
        w = get_weight_variable([in_kernels,out_kernels])
        b = get_bias_variable([out_kernels])
        y = tf.nn.relu(tf.bias_add(tf.matmul(x,w),b))
    return y
        
def VGG16(x):
    conv1_1 = conv2d_layer(x,tf.get_shape(x).as_list()[-1], 64, 3, 'conv1_1')
    conv1_2 = conv2d_layer(conv1_1,64, 64, 3, 'conv1_2')
    pool_1 = maxPoolLayer(conv1_2)
    
    conv2_1 = conv2d_layer(pool1,64, 128, 3, 'conv2_1')
    conv2_2 = conv2d_layer(conv2_1,128, 128, 3, 'conv2_2')
    pool2 = maxPoolLayer(conv2_2)
    
	conv3_1 = conv2d_layer(pool2,128, 256, 3, 'conv3_1')
    conv3_2 = conv2d_layer(conv3_1,256, 256, 3, 'conv3_2')
	conv3_3 = conv2d_layer(conv3_2,256, 256, 3, 'conv3_3')
    pool3 = maxPoolLayer(conv3_3)
    
	conv4_1 = conv2d_layer(pool3,256, 512, 3, 'conv4_1')
    conv4_2 = conv2d_layer(conv4_1,512, 512, 3, 'conv4_2')
	conv4_3 = conv2d_layer(conv4_2,512, 512, 3, 'conv4_3')
    pool4 = maxPoolLayer(conv4_3)
    
	conv5_1 = conv2d_layer(pool4,512, 512, 3, 'conv5_1')
    conv5_2 = conv2d_layer(conv5_1,512, 512, 3, 'conv5_2')
	conv5_3 = conv2d_layer(conv5_1,512, 512, 3, 'conv5_3')
    pool5 = maxPoolLayer(conv5_3)
    
	pool5_flatten_dims = int(np.prod(pool5.get_shape().as_list()[1:]))
    pool5_flatten = tf.reshape(pool5,[-1,pool5_flatten_dims])
    
    fc_6 = fc_layer(pool5_flatten, pool5_flatten_dims, 4096, 'fc6')
	fc_7 = fc_layer(fc_6, 4096, 4096, 'fc7')
	fc_8 = fc_layer(fc_7, 4096, 10, 'fc8')
    
    return fc_8

12.2 Pytorch

12.2.1 Pytorch是什麼？

Pytorch是torch的python版本，是由Facebook開源的神經網絡框架，專門針對 GPU 加速的深度神經網絡（DNN）編程。Torch 是一個經典的對多維矩陣數據進行操作的張量（tensor ）庫，在機器學習和其他數學密集型應用有廣泛應用。與Tensorflow的靜態計算圖不同，pytorch的計算圖是動態的，可以根據計算需要實時改變計算圖。但由於Torch語言採用 Lua，導致在國內一直很小衆，並逐漸被支持 Python 的 Tensorflow 搶走用戶。作爲經典機器學習庫 Torch 的端口，PyTorch 爲 Python 語言使用者提供了舒適的寫代碼選擇。

12.2.2 爲什麼選擇 Pytorch？

1.簡潔：

PyTorch的設計追求最少的封裝，儘量避免重複造輪子。不像 TensorFlow 中充斥着session、graph、operation、name_scope、variable、tensor、layer等全新的概念，PyTorch 的設計遵循tensor→variable(autograd)→nn.Module 三個由低到高的抽象層次，分別代表高維數組（張量）、自動求導（變量）和神經網絡（層/模塊），而且這三個抽象之間聯繫緊密，可以同時進行修改和操作。
簡潔的設計帶來的另外一個好處就是代碼易於理解。PyTorch的源碼只有TensorFlow的十分之一左右，更少的抽象、更直觀的設計使得PyTorch的源碼十分易於閱讀。

2.速度：

PyTorch 的靈活性不以速度爲代價，在許多評測中，PyTorch 的速度表現勝過 TensorFlow和Keras 等框架。框架的運行速度和程序員的編碼水平有極大關係，但同樣的算法，使用PyTorch實現的那個更有可能快過用其他框架實現的。

3.易用：

PyTorch 是所有的框架中面向對象設計的最優雅的一個。PyTorch的面向對象的接口設計來源於Torch，而Torch的接口設計以靈活易用而著稱，Keras作者最初就是受Torch的啓發纔開發了Keras。PyTorch繼承了Torch的衣鉢，尤其是API的設計和模塊的接口都與Torch高度一致。PyTorch的設計最符合人們的思維，它讓用戶儘可能地專注於實現自己的想法，即所思即所得，不需要考慮太多關於框架本身的束縛。

4.活躍的社區：

PyTorch 提供了完整的文檔，循序漸進的指南，作者親自維護的論壇供用戶交流和求教問題。Facebook 人工智能研究院對 PyTorch 提供了強力支持，作爲當今排名前三的深度學習研究機構，FAIR的支持足以確保PyTorch獲得持續的開發更新，不至於像許多由個人開發的框架那樣曇花一現。

12.2.3 PyTorch 的架構是怎樣的？

PyTorch(Caffe2) 通過混合前端，分佈式訓練以及工具和庫生態系統實現快速，靈活的實驗和高效生產。PyTorch 和 TensorFlow 具有不同計算圖實現形式，TensorFlow 採用靜態圖機制(預定義後再使用)，PyTorch採用動態圖機制(運行時動態定義)。PyTorch 具有以下高級特徵：

混合前端:新的混合前端在急切模式下提供易用性和靈活性，同時無縫轉換到圖形模式，以便在C ++運行時環境中實現速度，優化和功能。
分佈式訓練:通過利用本地支持集合操作的異步執行和可從Python和C ++訪問的對等通信，優化了性能。
Python優先: PyTorch爲了深入集成到Python中而構建的，因此它可以與流行的庫和Cython和Numba等軟件包一起使用。
豐富的工具和庫:活躍的研究人員和開發人員社區建立了豐富的工具和庫生態系統，用於擴展PyTorch並支持從計算機視覺到強化學習等領域的開發。
本機ONNX支持:以標準ONNX（開放式神經網絡交換）格式導出模型，以便直接訪問與ONNX兼容的平臺，運行時，可視化工具等。
C++前端：C++前端是PyTorch的純C++接口，它遵循已建立的Python前端的設計和體系結構。它旨在實現高性能，低延遲和裸機C++應用程序的研究。
使用GPU和CPU優化的深度學習張量庫。

12.2.4 Pytorch 與 tensorflow 之間的差異在哪裏？

上面也將了PyTorch 最大優勢是建立的神經網絡是動態的, 對比靜態的 Tensorflow, 它能更有效地處理一些問題, 比如說 RNN 變化時間長度的輸出。各有各的優勢和劣勢。兩者都是大公司發佈的, Tensorflow（Google）宣稱在分佈式訓練上下了很大的功夫, 那就默認 Tensorflow 在分佈式訓練上要超出 Pytorch（Facebook），還有tensorboard可視化工具, 但是 Tensorflow 的靜態計算圖使得在 RNN 上有一點點被動 (雖然它用其他途徑解決了), 不過用 PyTorch 的時候, 會對這種動態的 RNN 有更好的理解。而且 Tensorflow 的高度工業化, 它的底層代碼很難看懂， Pytorch 好那麼一點點, 如果深入 PytorchAPI, 至少能比看 Tensorflow 多看懂一點點 Pytorch 的底層在幹啥。

12.2.5 Pytorch有哪些常用工具包？

torch ：類似 NumPy 的張量庫，強 GPU 支持；
torch.autograd ：基於 tape 的自動區別庫，支持 torch 之中的所有可區分張量運行；
torch.nn ：爲最大化靈活性未涉及、與 autograd 深度整合的神經網絡庫；
torch.optim：與 torch.nn 一起使用的優化包，包含 SGD、RMSProp、LBFGS、Adam 等標準優化方式；
torch.multiprocessing： python 多進程併發，進程之間 torch Tensors 的內存共享；
torch.utils：數據載入器。具有訓練器和其他便利功能；
torch.legacy(.nn/.optim) ：處於向後兼容性考慮，從 Torch 移植來的 legacy 代碼；

12.3 Caffe

12.3.1 什麼是 Caffe？

Caffe的全稱應該是Convolutional Architecture for Fast Feature Embedding，它是一個清晰、高效的深度學習框架，它是開源的，核心語言是C++，它支持命令行、Python和Matlab接口，它既可以在CPU上運行也可以在GPU上運行。它的license是BSD 2-Clause。

12.3.2 Caffe的特點是什麼？

(1)、模塊化：Caffe從一開始就設計得儘可能模塊化，允許對新數據格式、網絡層和損失函數進行擴展。

(2)、表示和實現分離：Caffe的模型(model)定義是用Protocol Buffer語言寫進配置文件的。以任意有向無環圖的形式，Caffe支持網絡架構。Caffe會根據網絡的需要來正確佔用內存。通過一個函數調用，實現CPU和GPU之間的切換。

(3)、測試覆蓋：在Caffe中，每一個單一的模塊都對應一個測試。

(4)、python和Matlab接口：同時提供Python和Matlab接口。

(5)、預訓練參考模型：針對視覺項目，Caffe提供了一些參考模型，這些模型僅應用在學術和非商業領域，它們的license不是BSD。

12.3.3 Caffe的設計思想是怎樣的？

基本上，Caffe 沿用了神經網絡的一個簡單假設----所有的計算都是以layer的形式表示的，layer做的事情就是take一些數據，然後輸出一些計算以後的結果，比如說卷積，就是輸入一個圖像，然後和這一層的參數（filter）做卷積，然後輸出卷積的結果。每一個layer需要做兩個計算：forward是從輸入計算輸出，然後backward是從上面給的gradient來計算相對於輸入的gradient，只要這兩個函數實現了以後，我們就可以把很多層連接成一個網絡，這個網絡做的事情就是輸入我們的數據（圖像或者語音或者whatever），然後來計算我們需要的輸出（比如說識別的label），在training的時候，我們可以根據已有的label來計算loss和gradient，然後用gradient來update網絡的參數，這個就是Caffe的一個基本流程。

基本上，最簡單地用Caffe上手的方法就是先把數據寫成Caffe的格式，然後設計一個網絡，然後用Caffe提供的solver來做優化看效果如何，如果你的數據是圖像的話，可以從現有的網絡，比如說alexnet或者googlenet開始，然後做fine tuning，如果你的數據稍有不同，比如說是直接的float vector，你可能需要做一些custom的configuration，Caffe的logistic regression example興許會很有幫助。

Fine tune方法：fine tuning的想法就是說，在imagenet那麼大的數據集上train好一個很牛的網絡了，那別的task上肯定也不錯，所以我們可以把pretrain的網絡拿過來，然後只重新train最後幾層，重新train的意思是說，比如我以前需要classify imagenet的一千類，現在我只想識別是狗還是貓，或者是不是車牌，於是我就可以把最後一層softmax從一個40961000的分類器變成一個40962的分類器，這個strategy在應用中非常好使，所以我們經常會先在imagenet上pretrain一個網絡，因爲我們知道imagenet上training的大概過程會怎麼樣。

12.3.4 Caffe架構是怎樣的？

Caffe的架構與其它的深度學習框架稍微不同，它沒有根據算法實現過程的方式來進行編碼，而是以系統級的抽象作爲整體架構，逐層的封裝實現細節，使得上層的架構變得很清晰。Caffe的整體架構如下：

1. SyncedMem

這個類的主要功能是封裝CPU和GPU的數據交互操作。一般來說，數據的流動形式都是：硬盤->CPU內存->GPU內存->CPU內存->（硬盤），所以在寫代碼的過程中經常會寫CPU/GPU之間數據傳輸的代碼，同時還要維護CPU和GPU兩個處理端的內存指針。這些事情處理起來不會很難，但是會很繁瑣。因此SyncedMem的出現就是把CPU/GPU的數據傳輸操作封裝起來，只需要調用簡單的接口就可以獲得兩個處理端同步後的數據。

2. Blob

Blob是用於存儲數據的對象，在Caffe中各種數據(圖像輸入、模型參數)都是以Blob的形式在網絡中傳輸的，Blob提供統一的存儲操作接口，可用來保存訓練數據、模型參數等，同時Blob還能在CPU和GPU之間進行同步以支持CPU/GPU的混合運算。
這個類做了兩個封裝：一個是操作數據的封裝，使用Blob可以操縱高維的數據，快速訪問其中的數據，變換數據的維度等；另一個是對原始數據和更新量的封裝，每一個Blob中都有data和diff兩個數據指針，data用於存儲原始數據，diff 用於存儲反向傳播（Backpropagation）的梯度更新值。Blob使用了SyncedMem，這樣便於訪問不同的處理端。Blob基本實現了整個Caffe數據結構部分的封裝，在Net類中可以看到所有的前後向數據和參數都用Blob來表示就足夠了。數據的抽象到這個就可以了，接下來作層級的抽象。神經網絡的前後向計算可以做到層與層之間完全獨立，只要每個層按照一定的接口規則實現，就可以確保整個網絡的正確性。

3. Layer

Layer是網絡Net的基本單元，也是Caffe中能在外部進行調整的最小網絡結構單元，每個Layer都有輸入Blob和輸出Blob。Layer（層）是Caffe中最龐大最繁雜的模塊，它是神經網絡的基本計算單元。由於Caffe強調模塊化設計，因此只允許每個layer完成一類特定的計算，例如convolution操作、pooling、非線性變換、內積運算，以及數據加載、歸一化和損失計算等。Caffe中layer的種類有很多，具體的種類及功能請看官方文檔。在創建一個Caffe模型的時候，也是以Layer爲基礎進行的。Layer是一個父類，它的下面還有各種實現特定功能的子類，例如data_layer，conv_layer，loss_layer等。Layer是通過LayFactory來創建的。

4. Net

Net是一個完整的深度網絡，包含輸入層、隱藏層、輸出層，在Caffe中一般是一個卷積神經網絡(Convolution Neural Networ，CNN)。通過定義不同類型的Layer，並用Blob將不同的Layer連接起來，就能產生一個Net。Net將數據Blob和層Layer組合起來做進一步的封裝，對外提供了初始化和前後傳播的接口，使得整體看上去和一個層的功能類似，但內部的組合可以是多種多樣的。值得一提的是，每一層的輸入輸出數據統一保存在Net中，同時每個層內的參數指針也保存在Net中，不同的層可以通過WeightShare共享相同的參數，因此可以通過配置來實現多個神經網絡層之間共享參數的功能。一個Net由多個Layer組成。一個典型的網絡從data layer（從磁盤中載入數據）出發到loss layer結束。

5. Solver

有了Net就可以進行神經網絡的前後向傳播計算了，但是還缺少神經網絡的訓練和預測功能，Solver類進一步封裝了訓練和預測相關的一些功能。它還提供了兩個接口：一個是更新參數的接口，繼承Solver可以實現不同的參數更新方法，如Momentum，Nesterov，Adagrad等，因此可以使用不同的優化算法。另一個接口是訓練過程中每一輪特定狀態下的可注入的一些回調函數，在代碼中這個回調點的直接使用者就是多GPU訓練算法。Solver定義了針對Net網絡模型的求解方法，記錄網絡的訓練過程，保存網絡模型參數，中斷並恢復網絡的訓練過程。自定義Solver能夠實現不同的神經網絡求解方式。閱讀Solver的代碼可以瞭解網絡的求解優化過程。Solver是一個父類，它下面還有實現不同優化方法的子類，例如sgd_solver，adagrad_sovler等，Solver是通過SolverFactory來創建的。

6. Proto

caffe.proto位於…/src/caffe/proto目錄下，在這個文件夾下還有一個.pb.cc和一個.pb.h文件，這兩個文件都是由caffe.proto編譯而來的。在caffe.proto中定義了很多結構化數據，包括：
BlobProto、Datum、FillerParameter、NetParameter、SolverParameter、SolverState、LayerParameter、ConcatParameter、ConvolutionParameter、DataParameter、DropoutParameter、HDF5DataParameter、HDF5OutputParameter、ImageDataParameter、InfogainLossParameter、InnerProductParameter、LRNParameter、MemoryDataParameter、PoolingParameter、PowerParameter、WindowDataParameter、V0LayerParameter。

7. IO

除了上面的東西之外，還需要輸入數據和參數。DataReader和DataTransformer幫助準備輸入數據，Filler對參數進行初始化，一些Snapshot方法可以對模型進行持久化。

12.3.5 Caffe的有哪些接口？

Caffe深度學習框架支持多種編程接口，包括命令行、Python和Matlab,下面將介紹如何使用這些接口。

1. Caffe Python接口

Caffe提供 Python 接口，即Pycaffe，具體實現在caffe、python文件夾內。在Python代碼中import caffe，可以load models（導入模型）、forward and backward （前向、反向迭代）、handle IO（數據輸入輸出）、visualize networks（繪製net）和instrument model solving（自定義優化方法)。所有的模型數據、計算參數都是暴露在外、可供讀寫的。
(1)caffe.Net 是主要接口，負責導入數據、校驗數據、計算模型。
(2)caffe.Classsifier 用於圖像分類。
(3)caffe.Detector 用於圖像檢測。
(4)caffe.SGDSolver 是露在外的 solver 的接口。
(5)caffe.io 處理輸入輸出，數據預處理。
(6)caffe.draw 可視化 net 的結構。
(7)caffe blobs 以 numpy ndarrys 的形式表示，方便而且高效。

2. Caffe MATLAB接口

MATLAB接口（Matcaffe）在 caffe/matlab 目錄的 caffe 軟件包。在 matcaffe 的基礎上，可將Caffe整合到MATLAB代碼中。
MATLAB接口包括：
(1)MATLAB 中創建多個網絡結構。
(2)網絡的前向傳播（Forward）與反向傳播（Backward）計算。
(3)網絡中的任意一層以及參數的存取。
(4)網絡參數保存至文件或從文件夾加載。
(5)blob 和 network 形狀調整。
(6)網絡參數編輯和調整。
(7)創建多個 solvers 進行訓練。
(8)從solver 快照（Snapshots）恢復並繼續訓練。
(9)訪問訓練網絡（Train nets）和測試網絡(Test nets)。
(10)迭代後網絡交由 MATLAB 控制。
(11)MATLAB代碼融合梯度算法。

3. Caffe 命令行接口

命令行接口 Cmdcaffe 是 Caffe 中用來訓練模型、計算得分以及方法判斷的工具。Cmdcaffe 存放在 caffe/build/tools 目錄下。

1. caffe train

caffe train 命令用於模型學習，具體包括：
(1)caffe train 帶 solver.prototxt 參數完成配置。
(2)caffe train 帶 snapshot mode_iter_1000.solverstate 參數加載 solver snapshot。
(3)caffe train 帶 weights 參數 model.caffemodel 完成 Fine-tuning 模型初始化。

2. caffe test

caffe test 命令用於測試運行模型的得分，並且用百分比表示網絡輸出的最終結果，比如 accuracyhuoloss 作爲其結果。測試過程中，顯示每個 batch 的得分，最後輸出全部 batch 的平均得分值。

3. caffe time

caffe time 命令用來檢測系統性能和測量模型相對執行時間，此命令通過逐層計時與同步，執行模型檢測。

參考文獻：
1.深度學習：Caffe之經典模型講解與實戰/ 樂毅，王斌

10.4 網絡搭建有什麼原則？

10.4.1新手原則。

剛入門的新手不建議直接上來就開始搭建網絡模型。比較建議的學習順序如下：

1.瞭解神經網絡工作原理，熟悉基本概念及術語。
2.閱讀經典網絡模型論文+實現源碼(深度學習框架視自己情況而定)。
3.找數據集動手跑一個網絡，可以嘗試更改已有的網絡模型結構。
4.根據自己的項目需要設計網絡。

10.4.2深度優先原則。

通常增加網絡深度可以提高準確率，但同時會犧牲一些速度和內存。但深度不是盲目堆起來的，一定要在淺層網絡有一定效果的基礎上，增加深度。深度增加是爲了增加模型的準確率，如果淺層都學不到東西，深了也沒效果。

10.4.3卷積核size一般爲奇數。

卷積核爲奇數有以下好處：

1 保證錨點剛好在中間，方便以 central pixel爲標準進行滑動卷積，避免了位置信息發生偏移。
2 保證在填充（Padding）時，在圖像之間添加額外的零層，圖像的兩邊仍然對稱。

10.4.4卷積核不是越大越好。

AlexNet中用到了一些非常大的卷積核，比如11×11、5×5卷積核，之前人們的觀念是，卷積核越大，感受野越大，看到的圖片信息越多，因此獲得的特徵越好。但是大的卷積核會導致計算量的暴增，不利於模型深度的增加，計算性能也會降低。於是在VGG、Inception網絡中，利用2個3×3卷積核的組合比1個5×5卷積核的效果更佳，同時參數量（3×3×2+1=19<26=5×5×1+1）被降低，因此後來3×3卷積核被廣泛應用在各種模型中。

10.5 有哪些經典的網絡模型值得我們去學習的？

提起經典的網絡模型就不得不提起計算機視覺領域的經典比賽：ILSVRC .其全稱是 ImageNet Large Scale Visual Recognition Challenge.正是因爲ILSVRC 2012挑戰賽上的AlexNet橫空出世，使得全球範圍內掀起了一波深度學習熱潮。這一年也被稱作“深度學習元年”。而在歷年ILSVRC比賽中每次刷新比賽記錄的那些神經網絡也成爲了人們心中的經典，成爲學術界與工業屆競相學習與復現的對象，並在此基礎上展開新的研究。

序號	年份	網絡名稱	獲得榮譽
1	2012	AlexNet	ILSVRC圖像分類冠軍
2	2014	VGGNet	ILSVRC圖像分類亞軍
3	2014	GoogLeNet	ILSVRC圖像分類冠軍
4	2015	ResNet	ILSVRC圖像分類冠軍
5	2017	SeNet	ILSVRC圖像分類冠軍

1 AlexNet
論文:ImageNet Classification with Deep Convolutional Neural Networks
代碼實現:tensorflow
主要特點：

1.第一次使用非線性激活函數ReLU。

2.增加防加過擬合方法：Droupout層,提升了模型魯棒性。

3.首次使用數據增強。

4.首次使用GPU加速運算。

2 VGGNet
論文:Very Deep Convolutional Networks for Large-Scale Image Recognition
代碼實現:tensorflow
主要特點：

1.網絡結構更深。

2.普遍使用小卷積核。

3 GoogLeNet
論文:Going Deeper with Convolutions
代碼實現:tensorflow
主要特點：

1.增強卷積模塊功能。
主要的創新在於他的Inception，這是一種網中網（Network In Network）的結構，即原來的結點也是一個網絡。Inception一直在不斷髮展，目前已經V2、V3、V4。其中1*1卷積主要用來降維，用了Inception之後整個網絡結構的寬度和深度都可擴大，能夠帶來2-3倍的性能提升。

2.連續小卷積代替大卷積，保證感受野不變的同時，減少了參數數目。

4 ResNet
論文:Deep Residual Learning for Image Recognition
代碼實現:tensorflow
主要特點:

解決了“退化”問題，即當模型的層次加深時，錯誤率卻提高了。

5 SeNet
論文:Squeeze-and-Excitation Networks
代碼實現:tensorflow
主要特點:

提出了feature recalibration，通過引入 attention 重新加權，可以得到抑制無效特徵，提升有效特徵的權重，並很容易地和現有網絡結合，提升現有網絡性能，而計算量不會增加太多。

CV領域網絡結構演進歷程：
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-P291Wrkk-1575791498354)(./img/ch12/網絡結構演進.png)]

ILSVRC挑戰賽歷年冠軍:
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-LXvvCSnU-1575791498356)(./img/ch12/歷年冠軍.png)]

此後，ILSVRC挑戰賽的名次一直是衡量一個研究機構或企業技術水平的重要標尺。
ILSVRC 2017 已是最後一屆舉辦.2018年起，將由WebVision競賽（Challenge on Visual Understanding by Learning from Web Data）來接棒。因此，即使ILSVRC挑戰賽停辦了，但其對深度學習的深遠影響和巨大貢獻，將永載史冊。

10.6 網絡訓練有哪些技巧嗎？

10.6.1.合適的數據集。

1 沒有明顯髒數據(可以極大避免Loss輸出爲NaN)。
2 樣本數據分佈均勻。

10.6.2.合適的預處理方法。

關於數據預處理，在Batch Normalization未出現之前預處理的主要做法是減去均值，然後除去方差。在Batch Normalization出現之後，減均值除方差的做法已經沒有必要了。對應的預處理方法主要是數據篩查、數據增強等。

10.6.3.網絡的初始化。

網絡初始化最粗暴的做法是參數賦值爲全0，這是絕對不可取的。因爲如果所有的參數都是0，那麼所有神經元的輸出都將是相同的，那在back propagation的時候同一層內所有神經元的行爲也是相同的，這可能會直接導致模型失效，無法收斂。吳恩達視頻中介紹的方法是將網絡權重初始化均值爲0、方差爲1符合的正態分佈的隨機數據。

10.6.4.小規模數據試練。

在正式開始訓練之前，可以先用小規模數據進行試練。原因如下：

1 可以驗證自己的訓練流程對否。
2 可以觀察收斂速度，幫助調整學習速率。
3 查看GPU顯存佔用情況，最大化batch_size(前提是進行了batch normalization，只要顯卡不爆，儘量挑大的)。

10.6.5.設置合理Learning Rate。

1 太大。Loss爆炸、輸出NaN等。
2 太小。收斂速度過慢，訓練時長大大延長。
3 可變的學習速率。比如當輸出準確率到達某個閾值後，可以讓Learning Rate減半繼續訓練。

10.6.6.損失函數

損失函數主要分爲兩大類:分類損失和迴歸損失

1.迴歸損失：

1 均方誤差(MSE 二次損失 L2損失)
它是我們的目標變量與預測值變量差值平方。

2 平均絕對誤差(MAE L1損失)
它是我們的目標變量與預測值變量差值絕對值。
關於MSE與MAE的比較。MSE更容易解決問題，但是MAE對於異常值更加魯棒。更多關於MAE和MSE的性能，可以參考L1vs.L2 Loss Function

2.分類損失：

1 交叉熵損失函數。
是目前神經網絡中最常用的分類目標損失函數。

2 合頁損失函數
合頁損失函數廣泛在支持向量機中使用，有時也會在損失函數中使用。缺點:合頁損失函數是對錯誤越大的樣本施以更嚴重的懲罰，但是這樣會導致損失函數對噪聲敏感。

第十二章_網絡搭建及訓練