【入門教程】TensorFlow 2.0 模型：卷積神經網絡

文 / 李錫涵，Google Developers Expert

本文節選自《簡單粗暴 TensorFlow 2.0》

在《【入門教程】TensorFlow 2.0 模型：多層感知機》裏，我們以多層感知機（Multilayer Perceptron）爲例，總體介紹了 TensorFlow 2.0 的模型構建、訓練、評估全流程。

本篇文章則以在圖像領域常用的卷積神經網絡爲主題，介紹以下內容：

如何使用 tf.keras 構建卷積神經網絡模型；
如何在自己的項目中快速載入並使用經典的卷積神經網絡模型；
爲深度學習的入門者簡介 卷積層 和 池化層 的原理。

使用 tf.keras 構建卷積神經網絡模型

卷積神經網絡 (Convolutional Neural Network, CNN) 是一種結構類似於人類或動物的視覺系統的人工神經網絡，包含一個或多個卷積層 (Convolutional Layer)、池化層 (Pooling Layer) 和全連接層 (Fully-connected Layer)。

基礎知識和原理

臺灣大學李宏毅教授的《機器學習》課程的 Convolutional Neural Network 一章

UFLDL 教程 Convolutional Neural Network 一節

斯坦福課程 CS231n: Convolutional Neural Networks for Visual Recognition 中的 “Module 2: Convolutional Neural Networks” 部分

卷積神經網絡的一個示例實現如下所示，和上節中的多層感知機在代碼結構上很類似，只是新加入了一些卷積層和池化層。這裏的網絡結構並不是唯一的，可以增加、刪除或調整 CNN 的網絡結構和參數，以達到更好的性能。

 1class CNN(tf.keras.Model):
 2    def __init__(self):
 3        super().__init__()
 4        self.conv1 = tf.keras.layers.Conv2D(
 5            filters=32,             # 卷積層神經元（卷積核）數目
 6            kernel_size=[5, 5],     # 感受野大小
 7            padding='same',         # padding策略（vaild 或 same）
 8            activation=tf.nn.relu   # 激活函數
 9        )
10        self.pool1 = tf.keras.layers.MaxPool2D(pool_size=[2, 2], strides=2)
11        self.conv2 = tf.keras.layers.Conv2D(
12            filters=64,
13            kernel_size=[5, 5],
14            padding='same',
15            activation=tf.nn.relu
16        )
17        self.pool2 = tf.keras.layers.MaxPool2D(pool_size=[2, 2], strides=2)
18        self.flatten = tf.keras.layers.Reshape(target_shape=(7 * 7 * 64,))
19        self.dense1 = tf.keras.layers.Dense(units=1024, activation=tf.nn.relu)
20        self.dense2 = tf.keras.layers.Dense(units=10)
21
22    def call(self, inputs):
23        x = self.conv1(inputs)                  # [batch_size, 28, 28, 32]
24        x = self.pool1(x)                       # [batch_size, 14, 14, 32]
25        x = self.conv2(x)                       # [batch_size, 14, 14, 64]
26        x = self.pool2(x)                       # [batch_size, 7, 7, 64]
27        x = self.flatten(x)                     # [batch_size, 7 * 7 * 64]
28        x = self.dense1(x)                      # [batch_size, 1024]
29        x = self.dense2(x)                      # [batch_size, 10]
30        output = tf.nn.softmax(x)
31        return output

示例代碼中的 CNN 結構圖示

上一篇文章我們介紹了 TensorFlow 2.0 的模型構建、訓練、評估全流程。此處，我們只需要將上一篇文章實例化模型時的代碼 model = MLP() 更換成我們上面實現的 CNN 模型類，即 model = CNN() ，即可使用新的模型在 MNIST 數據集上進行訓練，輸出如下：

1test accuracy: 0.988100

可以發現準確率相較於上篇文章的多層感知機有非常顯著的提高。事實上，通過改變模型的網絡結構（比如加入 Dropout 層防止過擬合），準確率還有進一步提升的空間。

快速載入並使用經典的 CNN 模型

tf.keras.applications 中有一些預定義好的經典卷積神經網絡結構，如 VGG16 、 VGG19 、 ResNet 、 MobileNet 等。我們可以直接調用這些經典的卷積神經網絡結構，而無需手動定義網絡結構。

例如，我們可以使用以下代碼來實例化一個 MobileNetV2 網絡結構：

1model = tf.keras.applications.MobileNetV2()

當執行以上代碼時，TensorFlow 會自動從網絡上下載 MobileNetV2 網絡結構，因此在第一次執行代碼時需要具備網絡連接。每個網絡結構具有自己特定的詳細參數設置，常用參數如下：

input_shape ：輸入張量的形狀 (不含第一維的 Batch)，大多默認爲 224 × 224 × 3 。一般而言，模型對輸入張量的大小有下限限制，長和寬至少爲 32 × 32 或 75 × 75 ；
include_top ：在網絡的最後是否包含全連接層，默認爲 True ；
weights ：預訓練權值，默認爲 'imagenet' ，即爲當前模型載入在 ImageNet 數據集上預訓練的權值。如需隨機初始化變量可設爲 None ；
classes ：分類數，默認爲 1000。修改該參數需要 include_top 參數爲 True 且 weights 參數爲 None 。

各網絡模型參數的詳細介紹可參考 Keras 文檔。

以下展示一個例子，使用 MobileNetV2 網絡在 tf_flowers 五分類數據集上進行訓練（爲了代碼的簡短高效，在該示例中我們使用了 TensorFlow Datasets 和 tf.data 載入和預處理數據，在後面的連載中會專題介紹，或可參考手冊（TensorFlow Datasets、tf.data）。通過將 weights 設置爲 None ，我們隨機初始化變量而不使用預訓練權值。同時將 classes 設置爲 5，對應於 5 分類的數據集。

 1import tensorflow as tf
 2import tensorflow_datasets as tfds
 3
 4num_batches = 1000
 5batch_size = 50
 6learning_rate = 0.001
 7
 8dataset = tfds.load("tf_flowers", split=tfds.Split.TRAIN, as_supervised=True)
 9dataset = dataset.map(lambda img, label: (tf.image.resize(img, [224, 224]) / 255.0, label)).shuffle(1024).batch(32)
10model = tf.keras.applications.DenseNet121(weights=None, classes=5)
11optimizer = tf.keras.optimizers.Adam(learning_rate=learning_rate)
12for images, labels in dataset:
13    with tf.GradientTape() as tape:
14        labels_pred = model(images)
15        loss = tf.keras.losses.sparse_categorical_crossentropy(y_true=labels, y_pred=labels_pred)
16        loss = tf.reduce_mean(loss)
17        print("loss %f" % loss.numpy())
18    grads = tape.gradient(loss, model.trainable_variables)
19    optimizer.apply_gradients(grads_and_vars=zip(grads, model.trainable_variables))

後文連載文章中，我們也會直接調用這些經典的網絡結構來進行訓練。

卷積層和池化層的工作原理

卷積層（Convolutional Layer，以 tf.keras.layers.Conv2D 爲代表）是 CNN 的核心組件，其結構與大腦的視覺皮層有類似之處。

回憶我們之前建立的神經細胞的計算模型以及全連接層，我們默認每個神經元與上一層的所有神經元相連。不過，在視覺皮層的神經元中，情況並不是這樣。你或許在生物課上學習過 感受野 （Receptive Field）這一概念，即視覺皮層中的神經元並非與前一層的所有神經元相連，而只是感受一片區域內的視覺信號，並只對局部區域的視覺刺激進行反應。CNN 中的卷積層正體現了這一特性。

例如，下圖是一個 7×7 的單通道圖片信號輸入：

如果使用之前基於全連接層的模型，我們需要讓每個輸入信號對應一個權值，即建模一個神經元需要 7×7=49 個權值（加上偏置項是 50 個），並得到一個輸出信號。如果一層有 N 個神經元，我們就需要 49N 個權值，並得到 N 個輸出信號。

而在 CNN 的卷積層中，我們這樣建模一個卷積層的神經元：

圖中 3×3 的紅框代表該神經元的感受野。由此，我們只需 3×3=9 個權值，外加 1 個偏置項，即可得到一個輸出信號。例如，對於紅框所示的位置，輸出信號即爲對矩陣的所有元素求和並加上偏置項，記作。

不過，3×3 的範圍顯然不足以處理整個圖像，因此我們使用滑動窗口的方法。使用相同的參數，但將紅框在圖像中從左到右滑動，進行逐行掃描，每滑動到一個位置就計算一個值。例如，當紅框向右移動一個單位時，我們計算矩陣的所有元素的和並加上偏置項，記作。由此，和一般的神經元只能輸出 1 個值不同，這裏的卷積層神經元可以輸出一個 5×5 的矩陣。

卷積示意圖，一個單通道的 7×7 圖像在通過一個感受野爲 3×3 ，參數爲 10 個的卷積層神經元后，得到 5×5 的矩陣作爲卷積結果

下面，我們使用 TensorFlow 來驗證一下上圖的計算結果。

將上圖中的輸入圖像、權值矩陣和偏置項表示爲 NumPy 數組 image , W , b 如下：

1#TensorFlow 的圖像表示爲 [圖像數目，長，寬，色彩通道數] 的四維張量
2#這裏我們的輸入圖像 image 的張量形狀爲 [1, 7, 7, 1]
3image = np.array([[
4    [0, 0, 0, 0, 0, 0, 0],
5    [0, 1, 0, 1, 2, 1, 0],
6    [0, 0, 2, 2, 0, 1, 0],
7    [0, 1, 1, 0, 2, 1, 0],
8    [0, 0, 2, 1, 1, 0, 0],
9    [0, 2, 1, 1, 2, 0, 0],
10    [0, 0, 0, 0, 0, 0, 0]
11]], dtype=np.float32)
12image = np.expand_dims(image, axis=-1)  
13W = np.array([[
14    [ 0, 0, -1], 
15    [ 0, 1, 0 ], 
16    [-2, 0, 2 ]
17]], dtype=np.float32)
18b = np.array([1], dtype=np.float32)

然後建立一個僅有一個卷積層的模型，用 W 和 b 初始化 [4] ：

1model = tf.keras.models.Sequential([
2    tf.keras.layers.Conv2D(
3        filters=1,              # 卷積層神經元（卷積核）數目
4        kernel_size=[3, 3],     # 感受野大小
5        kernel_initializer=tf.constant_initializer(W),
6        bias_initializer=tf.constant_initializer(b)
7    )]
8)

最後將圖像數據 image 輸入模型，打印輸出：

1output = model(image)
2print(tf.squeeze(output))

程序運行結果爲：

1tf.Tensor(
2[[ 6.  5. -2.  1.  2.]
3 [ 3.  0.  3.  2. -2.]
4 [ 4.  2. -1.  0.  0.]
5 [ 2.  1.  2. -1. -3.]
6 [ 1.  1.  1.  3.  1.]], shape=(5, 5), dtype=float32)

可見與上圖中矩陣的值一致。

還有一個問題，以上假設圖片都只有一個通道（例如灰度圖片），但如果圖像是彩色的（例如有 RGB 三個通道）該怎麼辦呢？此時，我們可以爲每個通道準備一個 3×3 的權值矩陣，即一共有 3×3×3=27 個權值。對於每個通道，均使用自己的權值矩陣進行處理，輸出時將多個通道所輸出的值進行加和即可。

可能有讀者會注意到，按照上述介紹的方法，每次卷積後的結果相比於原始圖像而言，四周都會 “少一圈”。比如上面 7×7 的圖像，卷積後變成了 5×5 ，這有時會爲後面的工作帶來麻煩。因此，我們可以設定 padding 策略。在 tf.keras.layers.Conv2D 中，當我們將 padding 參數設爲 same 時，會將周圍缺少的部分使用 0 補齊，使得輸出的矩陣大小和輸入一致。

最後，既然我們可以使用滑動窗口的方法進行卷積，那麼每次滑動的步長是不是可以設置呢？答案是肯定的。通過 tf.keras.layers.Conv2D 的 strides 參數即可設置步長（默認爲 1）。比如，在上面的例子中，如果我們將步長設定爲 2，輸出的卷積結果即會是一個 3×3 的矩陣。

事實上，卷積的形式多種多樣，以上的介紹只是其中最簡單和基礎的一種。更多卷積方式的示例可見 Convolution arithmetic 。

池化層（Pooling Layer）的理解則簡單得多，其可以理解爲對圖像進行降採樣的過程，對於每一次滑動窗口中的所有值，輸出其中的最大值（MaxPooling）、均值或其他方法產生的值。例如，對於一個三通道的 16×16 圖像（即一個 16163 的張量），經過感受野爲 2×2，滑動步長爲 2 的池化層，則得到一個 883 的張量。

[4]
這裏使用了較爲簡易的 Sequential 模式建立模型，具體介紹可參考手冊。

福利 | 問答環節

在上一篇文章《TensorFlow 2.0 模型：多層感知機》中，我們對於部分具有代表性的問題回答如下：

Q1：有 labelimg 標註過了的 datasets 下載庫推薦嗎？自己標幾萬張是不可能完成的任務……
A：對於已有的經典數據集，可以參考 TensorFlow Datasets。TensorFlow Datasets 是一個開箱即用的數據集集合，包含數十種常用的機器學習數據集。通過簡單的幾行代碼即可將數據以 tf.data.Datasets 的格式載入。

Q2：Release版本啥時候出來呀？
A：目前 TensorFlow 2.0 已發佈了 RC1 （Release Candidate 1）版本，可使用 pip install tensorflow==2.0.0-rc1 安裝。相信距離正式發佈已經不會太遠了。

Q3：TensorFlow 的 keras 和 keras 庫本身性能有區別麼？
A：TensorFlow 的 Keras（tf.keras）可以理解爲與 TensorFlow 緊密整合的 Keras，支持 TensorFlow 的更多獨有特性（如 Eager Execution、TPU、基於 tf.distribution 的多 GPU 和多機訓練等），而這些特性能夠幫助你更高效地訓練模型。同時建議參考知乎問題：tf.keras 和 keras有什麼區別？。

Q4：每次都是 mnist ，能不能在數據 pipeline 上面多一些敘述？
A：其實，在本文的“快速載入並使用經典的卷積神經網絡模型”部分，我們已經開始使用 TensorFlow Datasets（TFDS）和 tf.data ，僅用短短數行就載入了 tf_flowers 花朵五分類數據集，並進行了圖像大小轉換、打散及分批次等預處理。在後面的連載中，我們會專題介紹 TensorFlow Datasets（TFDS）和 tf.data，這兩個工具能夠幫助你高效、靈活地載入和處理大規模訓練數據。可參考：

Q5：最近在研究 object detection，想用 tensorflow-datasets 導入 voc2007 數據集，但不知道怎麼導入。請問官方有比較好的演示代碼嗎？
A：您可以嘗試使用 TensorFlow Datasets 載入 voc2007 數據集，演示代碼如下：

1import tensorflow_datasets as tfds
2dataset = tfds.load("voc2007", split=tfds.Split.TRAIN)

是的，你沒看錯，就兩行哦！將數據集載入後，就可以使用 tf.data 方便高效地預處理和迭代讀取數據。以上是載入訓練集，載入測試集和驗證集可將split=tfds.Split.TRAIN換爲split=tfds.Split.TEST 和split=tfds.Split.VALIDATION 。

Q6：數據集大，怎麼處理？
A：在後面的連載中，我們會專題介紹 TensorFlow Datasets（TFDS）和 tf.data，這兩個工具能夠幫助你高效、靈活地載入和處理訓練大規模數據。

Q7：可不可以出點系統性的教程，入門好難
A：本系列教程《簡單粗暴 TensorFlow 2.0》即希望爲 TensorFlow 初學者提供易於上手的系統指導。另外，TensorFlow的官方教程也經過了大量的更新以改善易讀性，可參考本鏈接。

如果也想像大神一樣快速進步，別錯過 TensorFlow 官方團隊在中國大學慕課平臺推出的《TensorFlow 入門實操課程》，幫助你瞭解更多機器學習設計思路和實踐模式。立即點擊此處學習吧！

有任何學習疑問，歡迎移步“問答”版塊發帖提問。你的問題有機會得到 CSDN 百大熱門技術博主、資深社區作者或者 TensorFlow 資深開發者的解答哦！同時，我們也歡迎你積極地在這個版塊裏，回答其他小夥伴提出的問題，成爲 CSDN 社區貢獻者，邁出出道第一步！馬上開始討論吧！

還想獲取更多入門課程和產品信息？記得掃碼關注 TensorFlow 官方微信公衆號（ TensorFlow_official )！

【入門教程】TensorFlow 2.0 模型：卷積神經網絡

使用 tf.keras 構建卷積神經網絡模型

快速載入並使用經典的 CNN 模型

福利 | 問答環節

安全建設的原則

摩根大通將在英國推出數字消費銀行業務

國標GB28181協議級聯視頻平臺EasyGBS使用直播過程中實際的網絡統計方式介紹

duilib入門簡明教程 -- 簡單控件介紹 (12)

C語言知識點1

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結