【入門教程】TensorFlow 2.0 模型:卷積神經網絡

文 /  李錫涵,Google Developers Expert

本文節選自《簡單粗暴 TensorFlow 2.0》

圖片

 

《【入門教程】TensorFlow 2.0 模型:多層感知機》 裏,我們以多層感知機(Multilayer Perceptron)爲例,總體介紹了 TensorFlow 2.0 的模型構建、訓練、評估全流程。

本篇文章則以在圖像領域常用的卷積神經網絡爲主題,介紹以下內容:

  • 如何使用 tf.keras 構建卷積神經網絡模型;

  • 如何在自己的項目中快速載入並使用經典的卷積神經網絡模型;

  • 爲深度學習的入門者簡介 卷積層 和 池化層 的原理。

 

 

使用 tf.keras 構建卷積神經網絡模型

卷積神經網絡 (Convolutional Neural Network, CNN) 是一種結構類似於人類或動物的視覺系統的人工神經網絡,包含一個或多個卷積層 (Convolutional Layer)、池化層 (Pooling Layer) 和全連接層 (Fully-connected Layer)。

基礎知識和原理

卷積神經網絡的一個示例實現如下所示,和上節中的 多層感知機 在代碼結構上很類似,只是新加入了一些卷積層和池化層。這裏的網絡結構並不是唯一的,可以增加、刪除或調整 CNN 的網絡結構和參數,以達到更好的性能。

 1class CNN(tf.keras.Model):
 2    def __init__(self):
 3        super().__init__()
 4        self.conv1 = tf.keras.layers.Conv2D(
 5            filters=32,             # 卷積層神經元(卷積核)數目
 6            kernel_size=[5, 5],     # 感受野大小
 7            padding='same',         # padding策略(vaild 或 same)
 8            activation=tf.nn.relu   # 激活函數
 9        )
10        self.pool1 = tf.keras.layers.MaxPool2D(pool_size=[2, 2], strides=2)
11        self.conv2 = tf.keras.layers.Conv2D(
12            filters=64,
13            kernel_size=[5, 5],
14            padding='same',
15            activation=tf.nn.relu
16        )
17        self.pool2 = tf.keras.layers.MaxPool2D(pool_size=[2, 2], strides=2)
18        self.flatten = tf.keras.layers.Reshape(target_shape=(7 * 7 * 64,))
19        self.dense1 = tf.keras.layers.Dense(units=1024, activation=tf.nn.relu)
20        self.dense2 = tf.keras.layers.Dense(units=10)
21
22    def call(self, inputs):
23        x = self.conv1(inputs)                  # [batch_size, 28, 28, 32]
24        x = self.pool1(x)                       # [batch_size, 14, 14, 32]
25        x = self.conv2(x)                       # [batch_size, 14, 14, 64]
26        x = self.pool2(x)                       # [batch_size, 7, 7, 64]
27        x = self.flatten(x)                     # [batch_size, 7 * 7 * 64]
28        x = self.dense1(x)                      # [batch_size, 1024]
29        x = self.dense2(x)                      # [batch_size, 10]
30        output = tf.nn.softmax(x)
31        return output

圖片

示例代碼中的 CNN 結構圖示

 

上一篇文章 我們介紹了 TensorFlow 2.0 的模型構建、訓練、評估全流程。此處,我們只需要將上一篇文章實例化模型時的代碼 model = MLP() 更換成我們上面實現的 CNN 模型類,即 model = CNN() ,即可使用新的模型在 MNIST 數據集上進行訓練,輸出如下:

1test accuracy: 0.988100

可以發現準確率相較於上篇文章的 多層感知機 有非常顯著的提高。事實上,通過改變模型的網絡結構(比如加入 Dropout 層防止過擬合),準確率還有進一步提升的空間。

 

 

快速載入並使用經典的 CNN 模型

tf.keras.applications 中有一些預定義好的經典卷積神經網絡結構,如 VGG16  、 VGG19 、 ResNet 、 MobileNet 等。我們可以直接調用這些經典的卷積神經網絡結構,而無需手動定義網絡結構。

例如,我們可以使用以下代碼來實例化一個 MobileNetV2 網絡結構:

1model = tf.keras.applications.MobileNetV2()

當執行以上代碼時,TensorFlow 會自動從網絡上下載 MobileNetV2 網絡結構,因此在第一次執行代碼時需要具備網絡連接。每個網絡結構具有自己特定的詳細參數設置,常用參數如下:

  • input_shape :輸入張量的形狀 (不含第一維的 Batch),大多默認爲  224 × 224 × 3 。一般而言,模型對輸入張量的大小有下限限制,長和寬至少爲 32 × 32 或 75 × 75 ;

  • include_top :在網絡的最後是否包含全連接層,默認爲 True ;

  • weights :預訓練權值,默認爲  'imagenet' ,即爲當前模型載入在 ImageNet 數據集上預訓練的權值。如需隨機初始化變量可設爲 None ;

  • classes :分類數,默認爲 1000。修改該參數需要 include_top 參數爲 True 且 weights 參數爲 None 。

     

各網絡模型參數的詳細介紹可參考 Keras 文檔 。

 

以下展示一個例子,使用 MobileNetV2 網絡在 tf_flowers 五分類數據集上進行訓練(爲了代碼的簡短高效,在該示例中我們使用了 TensorFlow Datasets 和 tf.data 載入和預處理數據,在後面的連載中會專題介紹,或可參考手冊(TensorFlow Datasetstf.data)。通過將 weights 設置爲 None ,我們隨機初始化變量而不使用預訓練權值。同時將 classes 設置爲 5,對應於 5 分類的數據集。

 1import tensorflow as tf
 2import tensorflow_datasets as tfds
 3
 4num_batches = 1000
 5batch_size = 50
 6learning_rate = 0.001
 7
 8dataset = tfds.load("tf_flowers", split=tfds.Split.TRAIN, as_supervised=True)
 9dataset = dataset.map(lambda img, label: (tf.image.resize(img, [224, 224]) / 255.0, label)).shuffle(1024).batch(32)
10model = tf.keras.applications.DenseNet121(weights=None, classes=5)
11optimizer = tf.keras.optimizers.Adam(learning_rate=learning_rate)
12for images, labels in dataset:
13    with tf.GradientTape() as tape:
14        labels_pred = model(images)
15        loss = tf.keras.losses.sparse_categorical_crossentropy(y_true=labels, y_pred=labels_pred)
16        loss = tf.reduce_mean(loss)
17        print("loss %f" % loss.numpy())
18    grads = tape.gradient(loss, model.trainable_variables)
19    optimizer.apply_gradients(grads_and_vars=zip(grads, model.trainable_variables))

後文連載文章中,我們也會直接調用這些經典的網絡結構來進行訓練。

卷積層和池化層的工作原理

卷積層(Convolutional Layer,以 tf.keras.layers.Conv2D 爲代表)是 CNN 的核心組件,其結構與大腦的視覺皮層有類似之處。


回憶我們之前建立的 神經細胞的計算模型 以及全連接層,我們默認每個神經元與上一層的所有神經元相連。不過,在視覺皮層的神經元中,情況並不是這樣。你或許在生物課上學習過 感受野 (Receptive Field)這一概念,即視覺皮層中的神經元並非與前一層的所有神經元相連,而只是感受一片區域內的視覺信號,並只對局部區域的視覺刺激進行反應。CNN 中的卷積層正體現了這一特性。


例如,下圖是一個 7×7 的單通道圖片信號輸入:

圖片

如果使用之前基於全連接層的模型,我們需要讓每個輸入信號對應一個權值,即建模一個神經元需要 7×7=49 個權值(加上偏置項是 50 個),並得到一個輸出信號。如果一層有 N 個神經元,我們就需要 49N 個權值,並得到 N 個輸出信號。


而在 CNN 的卷積層中,我們這樣建模一個卷積層的神經元:

圖片

圖中 3×3 的紅框代表該神經元的感受野。由此,我們只需 3×3=9 個權值  ,外加 1 個偏置項  ,即可得到一個輸出信號。例如,對於紅框所示的位置,輸出信號即爲對矩陣   的所有元素求和並加上偏置項  ,記作 

不過,3×3 的範圍顯然不足以處理整個圖像,因此我們使用滑動窗口的方法。使用相同的參數  ,但將紅框在圖像中從左到右滑動,進行逐行掃描,每滑動到一個位置就計算一個值。例如,當紅框向右移動一個單位時,我們計算矩陣   的所有元素的和並加上偏置項  ,記作  。由此,和一般的神經元只能輸出 1 個值不同,這裏的卷積層神經元可以輸出一個 5×5 的矩陣 
 

圖片

卷積示意圖,一個單通道的 7×7 圖像在通過一個感受野爲 3×3 ,參數爲 10 個的卷積層神經元后,得到 5×5 的矩陣作爲卷積結果

 

下面,我們使用 TensorFlow 來驗證一下上圖的計算結果。

將上圖中的輸入圖像、權值矩陣 圖片 和偏置項 圖片 表示爲 NumPy 數組 image ,  W , b  如下:




1#TensorFlow 的圖像表示爲 [圖像數目,長,寬,色彩通道數] 的四維張量
2#這裏我們的輸入圖像 image 的張量形狀爲 [1, 7, 7, 1]
3image = np.array([[
4    [0, 0, 0, 0, 0, 0, 0],
5    [0, 1, 0, 1, 2, 1, 0],
6    [0, 0, 2, 2, 0, 1, 0],
7    [0, 1, 1, 0, 2, 1, 0],
8    [0, 0, 2, 1, 1, 0, 0],
9    [0, 2, 1, 1, 2, 0, 0],
10    [0, 0, 0, 0, 0, 0, 0]
11]], dtype=np.float32)
12image = np.expand_dims(image, axis=-1)  
13W = np.array([[
14    [ 0, 0, -1], 
15    [ 0, 1, 0 ], 
16    [-2, 0, 2 ]
17]], dtype=np.float32)
18b = np.array([1], dtype=np.float32)

然後建立一個僅有一個卷積層的模型,用 W 和 b 初始化 [4] :

1model = tf.keras.models.Sequential([
2    tf.keras.layers.Conv2D(
3        filters=1,              # 卷積層神經元(卷積核)數目
4        kernel_size=[3, 3],     # 感受野大小
5        kernel_initializer=tf.constant_initializer(W),
6        bias_initializer=tf.constant_initializer(b)
7    )]
8)

最後將圖像數據 image 輸入模型,打印輸出:

1output = model(image)
2print(tf.squeeze(output))

程序運行結果爲:

1tf.Tensor(
2[[ 6.  5. -2.  1.  2.]
3 [ 3.  0.  3.  2. -2.]
4 [ 4.  2. -1.  0.  0.]
5 [ 2.  1.  2. -1. -3.]
6 [ 1.  1.  1.  3.  1.]], shape=(5, 5), dtype=float32)

可見與上圖中矩陣 的值一致。

還有一個問題,以上假設圖片都只有一個通道(例如灰度圖片),但如果圖像是彩色的(例如有 RGB 三個通道)該怎麼辦呢?此時,我們可以爲每個通道準備一個 3×3 的權值矩陣,即一共有 3×3×3=27 個權值。對於每個通道,均使用自己的權值矩陣進行處理,輸出時將多個通道所輸出的值進行加和即可。

可能有讀者會注意到,按照上述介紹的方法,每次卷積後的結果相比於原始圖像而言,四周都會 “少一圈”。比如上面 7×7 的圖像,卷積後變成了 5×5 ,這有時會爲後面的工作帶來麻煩。因此,我們可以設定 padding 策略。在 tf.keras.layers.Conv2D 中,當我們將 padding 參數設爲 same 時,會將周圍缺少的部分使用 0 補齊,使得輸出的矩陣大小和輸入一致。
 




最後,既然我們可以使用滑動窗口的方法進行卷積,那麼每次滑動的步長是不是可以設置呢?答案是肯定的。通過 tf.keras.layers.Conv2D 的 strides 參數即可設置步長(默認爲 1)。比如,在上面的例子中,如果我們將步長設定爲 2,輸出的卷積結果即會是一個 3×3 的矩陣。

事實上,卷積的形式多種多樣,以上的介紹只是其中最簡單和基礎的一種。更多卷積方式的示例可見 Convolution arithmetic 。

池化層(Pooling Layer)的理解則簡單得多,其可以理解爲對圖像進行降採樣的過程,對於每一次滑動窗口中的所有值,輸出其中的最大值(MaxPooling)、均值或其他方法產生的值。例如,對於一個三通道的 16×16 圖像(即一個 16163 的張量),經過感受野爲 2×2,滑動步長爲 2 的池化層,則得到一個 883 的張量。

[4]
這裏使用了較爲簡易的 Sequential 模式建立模型,具體介紹可參考手冊






 

 

福利 | 問答環節

在上一篇文章《TensorFlow 2.0 模型:多層感知機》中,我們對於部分具有代表性的問題回答如下:

Q1:有 labelimg 標註過了的 datasets 下載庫推薦嗎?自己標幾萬張是不可能完成的任務……
A:對於已有的經典數據集,可以參考 TensorFlow Datasets。TensorFlow Datasets 是一個開箱即用的數據集集合,包含數十種常用的機器學習數據集。通過簡單的幾行代碼即可將數據以 tf.data.Datasets 的格式載入。

Q2:Release版本啥時候出來呀?
A:目前 TensorFlow 2.0 已發佈了 RC1 (Release Candidate 1)版本,可使用 pip install tensorflow==2.0.0-rc1 安裝。相信距離正式發佈已經不會太遠了。

Q3:TensorFlow 的 keras 和 keras 庫本身性能有區別麼?
A:TensorFlow 的 Keras(tf.keras)可以理解爲與 TensorFlow 緊密整合的 Keras,支持 TensorFlow 的更多獨有特性(如 Eager Execution、TPU、基於 tf.distribution 的多 GPU 和多機訓練等),而這些特性能夠幫助你更高效地訓練模型。同時建議參考知乎問題:tf.keras 和 keras有什麼區別?

Q4:每次都是 mnist ,能不能在數據 pipeline 上面多一些敘述?
A:其實,在本文的“快速載入並使用經典的卷積神經網絡模型”部分,我們已經開始使用 TensorFlow Datasets(TFDS) 和 tf.data ,僅用短短數行就載入了 tf_flowers 花朵五分類數據集,並進行了圖像大小轉換、打散及分批次等預處理。在後面的連載中,我們會專題介紹 TensorFlow Datasets(TFDS)tf.data,這兩個工具能夠幫助你高效、靈活地載入和處理大規模訓練數據。可參考 :

Q5:最近在研究 object detection,想用 tensorflow-datasets 導入 voc2007 數據集,但不知道怎麼導入。請問官方有比較好的演示代碼嗎?
A:您可以嘗試使用 TensorFlow Datasets 載入 voc2007 數據集,演示代碼如下:

1import tensorflow_datasets as tfds
2dataset = tfds.load("voc2007", split=tfds.Split.TRAIN)

是的,你沒看錯,就兩行哦!將數據集載入後,就可以使用 tf.data 方便高效地預處理和迭代讀取數據。以上是載入訓練集,載入測試集和驗證集可將split=tfds.Split.TRAIN換爲split=tfds.Split.TEST 和split=tfds.Split.VALIDATION 。

Q6:數據集大,怎麼處理?
A:在後面的連載中,我們會專題介紹 TensorFlow Datasets(TFDS) 和 tf.data,這兩個工具能夠幫助你高效、靈活地載入和處理訓練大規模數據。

Q7:可不可以出點系統性的教程,入門好難
A:本系列教程《簡單粗暴 TensorFlow 2.0》即希望爲 TensorFlow 初學者提供易於上手的系統指導。另外,TensorFlow的官方教程也經過了大量的更新以改善易讀性,可參考本鏈接

 

 

如果也想像大神一樣快速進步,別錯過 TensorFlow 官方團隊在中國大學慕課平臺推出的《TensorFlow 入門實操課程》,幫助你瞭解更多機器學習設計思路和實踐模式。立即點擊此處學習吧!

有任何學習疑問,歡迎移步“問答”版塊發帖提問。你的問題有機會得到 CSDN 百大熱門技術博主、資深社區作者或者 TensorFlow 資深開發者的解答哦!同時,我們也歡迎你積極地在這個版塊裏,回答其他小夥伴提出的問題,成爲 CSDN 社區貢獻者,邁出出道第一步!馬上開始討論吧!

還想獲取更多入門課程和產品信息?記得掃碼關注 TensorFlow 官方微信公衆號( TensorFlow_official )!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章