文 / 李錫涵,Google Developers Expert
本文節選自《簡單粗暴 TensorFlow 2.0》
在《【入門教程】TensorFlow 2.0 模型:多層感知機》 裏,我們以多層感知機(Multilayer Perceptron)爲例,總體介紹了 TensorFlow 2.0 的模型構建、訓練、評估全流程。
本篇文章則以在圖像領域常用的卷積神經網絡爲主題,介紹以下內容:
-
如何使用 tf.keras 構建卷積神經網絡模型;
-
如何在自己的項目中快速載入並使用經典的卷積神經網絡模型;
-
爲深度學習的入門者簡介 卷積層 和 池化層 的原理。
使用 tf.keras 構建卷積神經網絡模型
卷積神經網絡 (Convolutional Neural Network, CNN) 是一種結構類似於人類或動物的視覺系統的人工神經網絡,包含一個或多個卷積層 (Convolutional Layer)、池化層 (Pooling Layer) 和全連接層 (Fully-connected Layer)。
基礎知識和原理
卷積神經網絡的一個示例實現如下所示,和上節中的 多層感知機 在代碼結構上很類似,只是新加入了一些卷積層和池化層。這裏的網絡結構並不是唯一的,可以增加、刪除或調整 CNN 的網絡結構和參數,以達到更好的性能。
1class CNN(tf.keras.Model):
2 def __init__(self):
3 super().__init__()
4 self.conv1 = tf.keras.layers.Conv2D(
5 filters=32, # 卷積層神經元(卷積核)數目
6 kernel_size=[5, 5], # 感受野大小
7 padding='same', # padding策略(vaild 或 same)
8 activation=tf.nn.relu # 激活函數
9 )
10 self.pool1 = tf.keras.layers.MaxPool2D(pool_size=[2, 2], strides=2)
11 self.conv2 = tf.keras.layers.Conv2D(
12 filters=64,
13 kernel_size=[5, 5],
14 padding='same',
15 activation=tf.nn.relu
16 )
17 self.pool2 = tf.keras.layers.MaxPool2D(pool_size=[2, 2], strides=2)
18 self.flatten = tf.keras.layers.Reshape(target_shape=(7 * 7 * 64,))
19 self.dense1 = tf.keras.layers.Dense(units=1024, activation=tf.nn.relu)
20 self.dense2 = tf.keras.layers.Dense(units=10)
21
22 def call(self, inputs):
23 x = self.conv1(inputs) # [batch_size, 28, 28, 32]
24 x = self.pool1(x) # [batch_size, 14, 14, 32]
25 x = self.conv2(x) # [batch_size, 14, 14, 64]
26 x = self.pool2(x) # [batch_size, 7, 7, 64]
27 x = self.flatten(x) # [batch_size, 7 * 7 * 64]
28 x = self.dense1(x) # [batch_size, 1024]
29 x = self.dense2(x) # [batch_size, 10]
30 output = tf.nn.softmax(x)
31 return output
示例代碼中的 CNN 結構圖示
上一篇文章 我們介紹了 TensorFlow 2.0 的模型構建、訓練、評估全流程。此處,我們只需要將上一篇文章實例化模型時的代碼 model = MLP()
更換成我們上面實現的 CNN 模型類,即 model = CNN()
,即可使用新的模型在 MNIST 數據集上進行訓練,輸出如下:
1test accuracy: 0.988100
可以發現準確率相較於上篇文章的 多層感知機 有非常顯著的提高。事實上,通過改變模型的網絡結構(比如加入 Dropout 層防止過擬合),準確率還有進一步提升的空間。
快速載入並使用經典的 CNN 模型
tf.keras.applications
中有一些預定義好的經典卷積神經網絡結構,如 VGG16
、 VGG19
、 ResNet
、 MobileNet
等。我們可以直接調用這些經典的卷積神經網絡結構,而無需手動定義網絡結構。
例如,我們可以使用以下代碼來實例化一個 MobileNetV2
網絡結構:
1model = tf.keras.applications.MobileNetV2()
當執行以上代碼時,TensorFlow 會自動從網絡上下載 MobileNetV2
網絡結構,因此在第一次執行代碼時需要具備網絡連接。每個網絡結構具有自己特定的詳細參數設置,常用參數如下:
-
input_shape
:輸入張量的形狀 (不含第一維的 Batch),大多默認爲224 × 224 × 3
。一般而言,模型對輸入張量的大小有下限限制,長和寬至少爲32 × 32
或75 × 75
; -
include_top
:在網絡的最後是否包含全連接層,默認爲True
; -
weights
:預訓練權值,默認爲'imagenet'
,即爲當前模型載入在 ImageNet 數據集上預訓練的權值。如需隨機初始化變量可設爲None
; -
classes
:分類數,默認爲 1000。修改該參數需要include_top
參數爲True
且weights
參數爲None
。
各網絡模型參數的詳細介紹可參考 Keras 文檔 。
以下展示一個例子,使用 MobileNetV2
網絡在 tf_flowers
五分類數據集上進行訓練(爲了代碼的簡短高效,在該示例中我們使用了 TensorFlow Datasets 和 tf.data 載入和預處理數據,在後面的連載中會專題介紹,或可參考手冊(TensorFlow Datasets、tf.data)。通過將 weights
設置爲 None
,我們隨機初始化變量而不使用預訓練權值。同時將 classes
設置爲 5,對應於 5 分類的數據集。
1import tensorflow as tf
2import tensorflow_datasets as tfds
3
4num_batches = 1000
5batch_size = 50
6learning_rate = 0.001
7
8dataset = tfds.load("tf_flowers", split=tfds.Split.TRAIN, as_supervised=True)
9dataset = dataset.map(lambda img, label: (tf.image.resize(img, [224, 224]) / 255.0, label)).shuffle(1024).batch(32)
10model = tf.keras.applications.DenseNet121(weights=None, classes=5)
11optimizer = tf.keras.optimizers.Adam(learning_rate=learning_rate)
12for images, labels in dataset:
13 with tf.GradientTape() as tape:
14 labels_pred = model(images)
15 loss = tf.keras.losses.sparse_categorical_crossentropy(y_true=labels, y_pred=labels_pred)
16 loss = tf.reduce_mean(loss)
17 print("loss %f" % loss.numpy())
18 grads = tape.gradient(loss, model.trainable_variables)
19 optimizer.apply_gradients(grads_and_vars=zip(grads, model.trainable_variables))
後文連載文章中,我們也會直接調用這些經典的網絡結構來進行訓練。
卷積層和池化層的工作原理
卷積層(Convolutional Layer,以
tf.keras.layers.Conv2D
爲代表)是 CNN 的核心組件,其結構與大腦的視覺皮層有類似之處。
回憶我們之前建立的 神經細胞的計算模型 以及全連接層,我們默認每個神經元與上一層的所有神經元相連。不過,在視覺皮層的神經元中,情況並不是這樣。你或許在生物課上學習過 感受野 (Receptive Field)這一概念,即視覺皮層中的神經元並非與前一層的所有神經元相連,而只是感受一片區域內的視覺信號,並只對局部區域的視覺刺激進行反應。CNN 中的卷積層正體現了這一特性。
例如,下圖是一個 7×7 的單通道圖片信號輸入:如果使用之前基於全連接層的模型,我們需要讓每個輸入信號對應一個權值,即建模一個神經元需要 7×7=49 個權值(加上偏置項是 50 個),並得到一個輸出信號。如果一層有 N 個神經元,我們就需要 49N 個權值,並得到 N 個輸出信號。
圖中 3×3 的紅框代表該神經元的感受野。由此,我們只需 3×3=9 個權值 ,外加 1 個偏置項 ,即可得到一個輸出信號。例如,對於紅框所示的位置,輸出信號即爲對矩陣 的所有元素求和並加上偏置項 ,記作 。
而在 CNN 的卷積層中,我們這樣建模一個卷積層的神經元:
不過,3×3 的範圍顯然不足以處理整個圖像,因此我們使用滑動窗口的方法。使用相同的參數 ,但將紅框在圖像中從左到右滑動,進行逐行掃描,每滑動到一個位置就計算一個值。例如,當紅框向右移動一個單位時,我們計算矩陣 的所有元素的和並加上偏置項 ,記作 。由此,和一般的神經元只能輸出 1 個值不同,這裏的卷積層神經元可以輸出一個 5×5 的矩陣 。
卷積示意圖,一個單通道的 7×7 圖像在通過一個感受野爲 3×3 ,參數爲 10 個的卷積層神經元后,得到 5×5 的矩陣作爲卷積結果
下面,我們使用 TensorFlow 來驗證一下上圖的計算結果。
將上圖中的輸入圖像、權值矩陣 和偏置項 表示爲 NumPy 數組image
,W
,b
如下:
1#TensorFlow 的圖像表示爲 [圖像數目,長,寬,色彩通道數] 的四維張量
2#這裏我們的輸入圖像 image 的張量形狀爲 [1, 7, 7, 1]
3image = np.array([[
4 [0, 0, 0, 0, 0, 0, 0],
5 [0, 1, 0, 1, 2, 1, 0],
6 [0, 0, 2, 2, 0, 1, 0],
7 [0, 1, 1, 0, 2, 1, 0],
8 [0, 0, 2, 1, 1, 0, 0],
9 [0, 2, 1, 1, 2, 0, 0],
10 [0, 0, 0, 0, 0, 0, 0]
11]], dtype=np.float32)
12image = np.expand_dims(image, axis=-1)
13W = np.array([[
14 [ 0, 0, -1],
15 [ 0, 1, 0 ],
16 [-2, 0, 2 ]
17]], dtype=np.float32)
18b = np.array([1], dtype=np.float32)
然後建立一個僅有一個卷積層的模型,用
W
和b
初始化 [4] :
1model = tf.keras.models.Sequential([
2 tf.keras.layers.Conv2D(
3 filters=1, # 卷積層神經元(卷積核)數目
4 kernel_size=[3, 3], # 感受野大小
5 kernel_initializer=tf.constant_initializer(W),
6 bias_initializer=tf.constant_initializer(b)
7 )]
8)
最後將圖像數據
image
輸入模型,打印輸出:
1output = model(image)
2print(tf.squeeze(output))
程序運行結果爲:
1tf.Tensor(
2[[ 6. 5. -2. 1. 2.]
3 [ 3. 0. 3. 2. -2.]
4 [ 4. 2. -1. 0. 0.]
5 [ 2. 1. 2. -1. -3.]
6 [ 1. 1. 1. 3. 1.]], shape=(5, 5), dtype=float32)
可見與上圖中矩陣 的值一致。
還有一個問題,以上假設圖片都只有一個通道(例如灰度圖片),但如果圖像是彩色的(例如有 RGB 三個通道)該怎麼辦呢?此時,我們可以爲每個通道準備一個 3×3 的權值矩陣,即一共有 3×3×3=27 個權值。對於每個通道,均使用自己的權值矩陣進行處理,輸出時將多個通道所輸出的值進行加和即可。
可能有讀者會注意到,按照上述介紹的方法,每次卷積後的結果相比於原始圖像而言,四周都會 “少一圈”。比如上面 7×7 的圖像,卷積後變成了 5×5 ,這有時會爲後面的工作帶來麻煩。因此,我們可以設定 padding 策略。在tf.keras.layers.Conv2D
中,當我們將padding
參數設爲same
時,會將周圍缺少的部分使用 0 補齊,使得輸出的矩陣大小和輸入一致。
最後,既然我們可以使用滑動窗口的方法進行卷積,那麼每次滑動的步長是不是可以設置呢?答案是肯定的。通過
tf.keras.layers.Conv2D
的strides
參數即可設置步長(默認爲 1)。比如,在上面的例子中,如果我們將步長設定爲 2,輸出的卷積結果即會是一個 3×3 的矩陣。
事實上,卷積的形式多種多樣,以上的介紹只是其中最簡單和基礎的一種。更多卷積方式的示例可見 Convolution arithmetic 。
池化層(Pooling Layer)的理解則簡單得多,其可以理解爲對圖像進行降採樣的過程,對於每一次滑動窗口中的所有值,輸出其中的最大值(MaxPooling)、均值或其他方法產生的值。例如,對於一個三通道的 16×16 圖像(即一個 16163 的張量),經過感受野爲 2×2,滑動步長爲 2 的池化層,則得到一個 883 的張量。
[4]
這裏使用了較爲簡易的 Sequential 模式建立模型,具體介紹可參考手冊。
福利 | 問答環節
在上一篇文章《TensorFlow 2.0 模型:多層感知機》中,我們對於部分具有代表性的問題回答如下:
Q1:有 labelimg 標註過了的 datasets 下載庫推薦嗎?自己標幾萬張是不可能完成的任務……
A:對於已有的經典數據集,可以參考 TensorFlow Datasets。TensorFlow Datasets 是一個開箱即用的數據集集合,包含數十種常用的機器學習數據集。通過簡單的幾行代碼即可將數據以 tf.data.Datasets 的格式載入。
Q2:Release版本啥時候出來呀?
A:目前 TensorFlow 2.0 已發佈了 RC1 (Release Candidate 1)版本,可使用 pip install tensorflow==2.0.0-rc1 安裝。相信距離正式發佈已經不會太遠了。
Q3:TensorFlow 的 keras 和 keras 庫本身性能有區別麼?
A:TensorFlow 的 Keras(tf.keras)可以理解爲與 TensorFlow 緊密整合的 Keras,支持 TensorFlow 的更多獨有特性(如 Eager Execution、TPU、基於 tf.distribution 的多 GPU 和多機訓練等),而這些特性能夠幫助你更高效地訓練模型。同時建議參考知乎問題:tf.keras 和 keras有什麼區別?。
Q4:每次都是 mnist ,能不能在數據 pipeline 上面多一些敘述?
A:其實,在本文的“快速載入並使用經典的卷積神經網絡模型”部分,我們已經開始使用 TensorFlow Datasets(TFDS) 和 tf.data ,僅用短短數行就載入了 tf_flowers 花朵五分類數據集,並進行了圖像大小轉換、打散及分批次等預處理。在後面的連載中,我們會專題介紹 TensorFlow Datasets(TFDS) 和 tf.data,這兩個工具能夠幫助你高效、靈活地載入和處理大規模訓練數據。可參考 :
Q5:最近在研究 object detection,想用 tensorflow-datasets 導入 voc2007 數據集,但不知道怎麼導入。請問官方有比較好的演示代碼嗎?
A:您可以嘗試使用 TensorFlow Datasets 載入 voc2007 數據集,演示代碼如下:
1import tensorflow_datasets as tfds
2dataset = tfds.load("voc2007", split=tfds.Split.TRAIN)
是的,你沒看錯,就兩行哦!將數據集載入後,就可以使用 tf.data
方便高效地預處理和迭代讀取數據。以上是載入訓練集,載入測試集和驗證集可將split=tfds.Split.TRAIN
換爲split=tfds.Split.TEST
和split=tfds.Split.VALIDATION
。
Q6:數據集大,怎麼處理?
A:在後面的連載中,我們會專題介紹 TensorFlow Datasets(TFDS) 和 tf.data,這兩個工具能夠幫助你高效、靈活地載入和處理訓練大規模數據。
Q7:可不可以出點系統性的教程,入門好難
A:本系列教程《簡單粗暴 TensorFlow 2.0》即希望爲 TensorFlow 初學者提供易於上手的系統指導。另外,TensorFlow的官方教程也經過了大量的更新以改善易讀性,可參考本鏈接。
如果也想像大神一樣快速進步,別錯過 TensorFlow 官方團隊在中國大學慕課平臺推出的《TensorFlow 入門實操課程》,幫助你瞭解更多機器學習設計思路和實踐模式。立即點擊此處學習吧!
有任何學習疑問,歡迎移步“問答”版塊發帖提問。你的問題有機會得到 CSDN 百大熱門技術博主、資深社區作者或者 TensorFlow 資深開發者的解答哦!同時,我們也歡迎你積極地在這個版塊裏,回答其他小夥伴提出的問題,成爲 CSDN 社區貢獻者,邁出出道第一步!馬上開始討論吧!
還想獲取更多入門課程和產品信息?記得掃碼關注 TensorFlow 官方微信公衆號( TensorFlow_official )!