深度可分離卷積(Depthwise separable convolution)是由DepthWise和PointWise兩個部分組成,來提取特徵,像google提出的mobilenet就是使用的深度可分離卷積。該類網絡模型具有輕量級的特點,但是熊掌和魚不可兼得,其輕量級的特點也是導致其精度降低的重要原因。
1. 常規的卷積操作
常規的卷積操作,一個卷積核的大小是由卷積核 寬 * 高 * 輸入圖像的通道數 三部分組成,那麼我們將輸入圖像與該卷積核做卷積操作時,是將輸入圖像的各個通道與卷積核各個通道做卷積操作,然後三個通道結果進行相加求和,再通過非線性函數得到最終的feature map。
那麼這裏的參數數量爲:
那麼我們得到的常規卷積的計算量(偏置加法不考慮,因爲加法計算量相對於乘法可忽略不計)爲:
其計算量計算過程如下:
表示卷積核的大小,表示輸入圖像的通道數,則單個卷積覈對應單個輸出像素點的計算量爲;
又因爲表示輸出feature map的大小,則對應的單通道的輸出feature map的計算量爲
那麼N個通道的feature map對應的計算量爲
2. 深度可分離卷積
深度可分離卷積由DepthWise深度卷積和PintWise點卷積兩部分組成
2.1 DepthWise卷積
如上圖所示,深度卷積的卷積核只負責一個通道,一個通道也只會被一個卷積核卷積;那麼卷積核的數量取決於輸入圖像的通道數,不像常規的卷積核(通道數與輸入圖像的通道數要保持一致)。
那麼DepthWise卷積的參數數量爲(從代碼summary中打印出的模型layer結構看無偏置bias):
那麼DepthWise卷積的計算量(同樣不考慮加法的計算量):
其計算量的計算過程如下:
這裏的對於各通道的卷積核的計算量爲,又因爲輸入圖像的通道數爲,那麼DepthWise卷積的計算量爲,這裏我們也就得到了feature map的通道數爲 ,這裏的也將作爲PointWise的輸入圖像的通道數。
Depthwise Convolution完成後的Feature map數量與輸入層的通道數相同,無法擴展Feature map。而且這種運算對輸入層的每個通道獨立進行卷積運算,沒有有效的利用不同通道在相同空間位置上的feature信息。因此需要Pointwise Convolution來將這些Feature map進行組合生成新的Feature map。
2.2 PointWise卷積
點卷積與常規的卷積操作相同,只不過其卷積核的尺寸爲 1*1*輸入圖像通道數。所以這裏的卷積運算會將上一步的map在深度方向上進行加權組合,生成新的Feature map。有幾個卷積核就有幾個輸出Feature map。
前面的博文中有說過1*1卷積的卷積有 增加非線性和改變feature map通道數兩個作用
那麼PointWise的參數量(因爲這裏的使用的只不過是1*1卷積,這裏應該是包含了bias)爲:
那麼PointWise的計算量爲
其計算量計算過程如下:
根據前面的DepthWise卷積我們得到,這裏PointWise卷積的輸入圖像的通道數爲,則對應的單個點卷積核的計算量爲
,那麼對於N通道的feature map其總的計算量大小爲
2.3 深度可分離卷積總的參數和計算量
深度可分離卷積總的參數量爲:
+========>
對於常規卷積的計算量爲:
我們可以將兩者參數求出一個比例,我們待會可以在代碼中打印的參數代入反過來驗證這個比例是否正確:
深度可分離卷積總的計算量大小爲:
+ ========> 。
將該計算量除以常規卷積的計算量,得到深度可分離卷積的優化比例爲:
由此我們可以得出,深度可分離卷積使得卷積神經網絡計算量大大減少,從而使得卷積神經網絡可以在移動設備等計算資源有限的設備上運行。
3. 深度可分離卷積在tensorflow2上的實現
深度可分離卷積的接口已經在tf.keras中被實現,封裝成一個專門的接口,我們在模型定義部分直接調用即可。
import matplotlib as mpl #畫圖用的庫
import matplotlib.pyplot as plt
#下面這一句是爲了可以在notebook中畫圖
%matplotlib inline
import numpy as np
import sklearn #機器學習算法庫
import pandas as pd #處理數據的庫
import os
import sys
import time
import tensorflow as tf
from tensorflow import keras #使用tensorflow中的keras
#import keras #單純的使用keras
print(tf.__version__)
print(sys.version_info)
for module in mpl, np, sklearn, pd, tf, keras:
print(module.__name__, module.__version__)
2.0.0
sys.version_info(major=3, minor=6, micro=9, releaselevel='final', serial=0)
matplotlib 3.1.2
numpy 1.18.0
sklearn 0.21.3
pandas 0.25.3
tensorflow 2.0.0
tensorflow_core.keras 2.2.4-tf
physical_devices = tf.config.experimental.list_physical_devices('GPU')
assert len(physical_devices) > 0, "Not enough GPU hardware devices available"
tf.config.experimental.set_memory_growth(physical_devices[0], True)
fashion_mnist = keras.datasets.fashion_mnist # 該數據集是黑白服裝數據集
#拆分訓練集和測試集
(x_train_all, y_train_all), (x_test, y_test) = fashion_mnist.load_data()
#將訓練集拆分爲訓練集和驗證集
#訓練集共6萬張圖片,我們將前5000張作爲驗證集,後面所有的做訓練集
x_valid, x_train = x_train_all[:5000], x_train_all[5000:]
y_valid, y_train = y_train_all[:5000], y_train_all[5000:]
print(x_train[0].dtype)
print(x_train[0]) # 是一個數據矩陣 28*28, 矩陣中的每一個數值都是uint8類型
print(y_train[0]) #這裏的y值均爲數字編碼,非向量,所以後面定義模型損失函數爲 sparse_categorical_crossentropy
print(x_train.shape, y_train.shape)
print(x_valid.shape, y_valid.shape)
print(x_test.shape, y_test.shape)
uint8
[[ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 1 0 0 0 0 0 0 0 0]
[ 0 0 0 0 0 0 0 0 0 0 0 44 127 182 185 161 120 55
0 0 0 0 0 0 0 0 0 0]
[ 0 0 0 0 0 0 0 0 0 42 198 251 255 251 249 247 255 252
214 100 0 0 0 0 0 0 0 0]
[ 0 0 0 0 0 0 2 0 0 233 252 237 239 234 237 235 237 237
254 227 0 0 0 0 1 0 0 0]
[ 0 0 0 0 0 2 0 0 16 210 225 215 175 217 216 193 196 226
221 209 50 0 0 2 0 0 0 0]
[ 0 0 0 0 2 0 0 199 229 232 230 245 204 219 253 245 207 194
223 231 236 235 0 0 3 0 0 0]
[ 0 0 0 0 1 0 137 235 204 209 201 209 234 190 234 218 215 238
239 204 189 224 154 0 0 0 0 0]
[ 0 0 0 0 0 0 194 201 200 209 202 193 205 194 183 218 231 197
172 181 193 205 199 0 0 0 0 0]
[ 0 0 0 0 0 3 212 203 188 189 196 198 198 201 196 217 179 167
183 217 197 202 219 30 0 0 0 0]
[ 0 0 0 0 0 34 225 200 194 190 188 192 196 192 170 202 190 201
195 200 201 209 227 50 0 0 0 0]
[ 0 0 0 0 0 68 225 210 211 198 192 196 204 196 181 212 197 195
192 206 220 210 229 93 0 0 0 0]
[ 0 0 0 0 0 111 223 227 253 209 196 204 211 206 183 216 206 210
203 215 244 224 227 150 0 0 0 0]
[ 0 0 0 0 0 139 225 224 255 202 206 212 209 211 190 213 202 207
206 222 255 230 220 190 0 0 0 0]
[ 0 0 0 0 0 180 226 224 255 199 204 207 214 214 190 216 206 203
205 219 243 224 214 234 0 0 0 0]
[ 0 0 0 0 0 225 223 228 254 209 206 208 213 210 191 215 207 204
208 211 249 226 214 255 38 0 0 0]
[ 0 0 0 0 0 250 232 240 239 211 203 209 205 211 197 215 208 208
214 213 239 231 219 255 81 0 0 0]
[ 0 0 0 0 0 248 236 247 240 203 200 208 206 214 193 213 212 208
212 211 243 242 225 254 66 0 0 0]
[ 0 0 0 0 0 247 230 252 226 199 211 202 211 213 182 213 212 206
202 219 207 247 222 237 104 0 0 0]
[ 0 0 0 0 10 244 219 250 205 199 209 202 209 211 189 214 206 210
200 212 154 240 208 219 140 0 0 0]
[ 0 0 0 0 21 255 222 238 184 210 192 206 209 210 189 213 211 209
192 228 155 226 238 241 166 0 0 0]
[ 0 0 0 0 37 245 226 241 150 197 189 204 209 210 183 213 213 201
184 215 146 216 236 225 154 0 0 0]
[ 0 0 0 0 58 239 227 255 158 193 195 204 209 213 180 207 217 199
194 211 158 219 236 216 151 0 0 0]
[ 0 0 0 0 68 233 226 243 139 200 193 205 210 208 180 205 212 203
196 216 157 179 255 216 155 0 0 0]
[ 0 0 0 0 81 225 224 211 138 219 185 201 213 207 197 226 212 200
190 215 183 90 255 211 147 0 0 0]
[ 0 0 0 0 91 210 230 158 114 205 187 208 209 206 193 210 211 204
195 204 181 23 255 213 158 0 0 0]
[ 0 0 0 0 87 205 232 109 164 255 214 224 222 210 197 214 225 222
211 220 217 0 234 216 169 0 0 0]
[ 0 0 0 0 92 213 232 146 5 134 151 162 170 183 182 164 166 178
162 156 98 0 240 225 210 0 0 0]
[ 0 0 0 0 43 164 206 141 0 0 0 0 0 0 0 0 0 0
0 0 0 0 127 125 76 0 0 0]]
4
(55000, 28, 28) (55000,)
(5000, 28, 28) (5000,)
(10000, 28, 28) (10000,)
#在圖像分類領域我們提升準確率的手段 歸一化:
# 1.對訓練數據進行歸一化 2. 批歸一化
# x = (x - u)/std u爲均值,std爲方差
from sklearn.preprocessing import StandardScaler #使用sklearn中的StandardScaler實現訓練數據歸一化
scaler = StandardScaler()
#fit_transform:得到方差、均值、最大最小值然後數據進行歸一化操作
#https://blog.csdn.net/youhuakongzhi/article/details/90519801
#x_train:先轉爲float32用於做除法,x_train本身爲三維矩陣[None,28,28],因爲fit_transform要求二維數據所以需要轉換爲[None, 784],再轉回四維矩陣
x_train_scaled = scaler.fit_transform(x_train.astype(np.float32).reshape(-1,1)).reshape(-1,28,28,1)
#是因爲在trainData的時候,已經使用fit()得到了整體的指標(均值,方差等)並被保存起來了後面驗證集測試集可以使用,所以在測試集上直接transform(),使用之前的指標,
#如果在測試集上再進行fit(),由於兩次的數據不一樣,導致得到不同的指標,會使預測發生偏差,因爲模型是針對之前的數據fit()出來
#的標準來訓練的,而現在的數據是新的標準,會導致預測的不準確
x_valid_scaled = scaler.transform(x_valid.astype(np.float32).reshape(-1,1)).reshape(-1,28,28,1)
x_test_scaled = scaler.transform(x_test.astype(np.float32).reshape(-1,1)).reshape(-1,28,28,1)
#reshape(-1,1)表示(任意行,1列),這裏個人認爲設置裏面什麼參數影響不大,只要是轉換爲二維即可,反正最終要轉換爲三/四 維使用
#tf.keras.models.Sequential()
model = keras.models.Sequential()
'''
#使用深度卷積網絡實現
model.add(keras.layers.Flatten(input_shape=[28,28]))
for _ in range(20):
model.add(keras.layers.Dense(100,activation="selu"))# 激活函數selu自帶數據歸一化功能,在一定程度上也能緩解梯度消失問題
'''
#使用卷積神經網絡實現
#激活函數這裏使用了自帶批歸一化的selu函數來代替使用relu激活函數
#SeparableConv2D 深度可分離卷積的接口
model.add(keras.layers.Conv2D(filters=32,kernel_size=3,padding='same',activation="selu",input_shape=(28, 28, 1)))
model.add(keras.layers.SeparableConv2D(filters=32,kernel_size=3,padding='same',activation="selu"))
model.add(keras.layers.MaxPool2D(pool_size=2))
model.add(keras.layers.SeparableConv2D(filters=64,kernel_size=3,padding='same',activation="selu"))
model.add(keras.layers.SeparableConv2D(filters=64,kernel_size=3,padding='same',activation="selu"))
model.add(keras.layers.MaxPool2D(pool_size=2))
model.add(keras.layers.SeparableConv2D(filters=128,kernel_size=3,padding='same',activation="selu"))
model.add(keras.layers.SeparableConv2D(filters=128,kernel_size=3,padding='same',activation="selu"))
model.add(keras.layers.MaxPool2D(pool_size=2))
model.add(keras.layers.Flatten())
model.add(keras.layers.Dense(128, activation="selu"))
#softmax層輸出
model.add(keras.layers.Dense(10,activation="softmax"))
model.compile(loss="sparse_categorical_crossentropy",
optimizer="adam", #optimizer="sgd", 優化算法一般來說我們無腦用adam即可
metrics=["accuracy"])
#查看上面建立的模型架構信息
model.summary()
Model: "sequential"
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
conv2d (Conv2D) (None, 28, 28, 32) 320==(3*3+1)*32
_________________________________________________________________
separable_conv2d (SeparableC (None, 28, 28, 32) 1344==3*3*32+(1*1*32+1)*32
_________________________________________________________________
max_pooling2d (MaxPooling2D) (None, 14, 14, 32) 0
_________________________________________________________________
separable_conv2d_1 (Separabl (None, 14, 14, 64) 2400==3*3*32+(1*1*32+1)*64
_________________________________________________________________
separable_conv2d_2 (Separabl (None, 14, 14, 64) 4736==3*3*64+(1*1*64+1)*64
_________________________________________________________________
max_pooling2d_1 (MaxPooling2 (None, 7, 7, 64) 0
_________________________________________________________________
separable_conv2d_3 (Separabl (None, 7, 7, 128) 8896==3*3*64+(1*1*64+1)*128
_________________________________________________________________
separable_conv2d_4 (Separabl (None, 7, 7, 128) 17664==3*3*128+(1*1*128+1)*128
_________________________________________________________________
max_pooling2d_2 (MaxPooling2 (None, 3, 3, 128) 0
_________________________________________________________________
flatten (Flatten) (None, 1152) 0
_________________________________________________________________
dense (Dense) (None, 128) 147584==1152*128+128
_________________________________________________________________
dense_1 (Dense) (None, 10) 1290==128*10+10
=================================================================
Total params: 184,234
Trainable params: 184,234
Non-trainable params: 0
從模型的結構和打印的參數我們可以看到,這裏的卷積層的參數並不多,主要參數都是在全連接層
#Tensorflow中的callback用於模型訓練過程中的一些監聽操作,常用的callback類型如下三類:
#Tensorboard 可視化Tensorboard
#earlystopping 當loss函數不能再優化時停止訓練,這樣可以截取到最優的模型參數
#ModelCheckpoint 每次epoch之後就保存模型
#當前目錄下新建一個callbacks文件夾並在裏面創建一個h5模型文件
import shutil
logdir='./callbacks_separable_cnn'
if os.path.exists(logdir):
shutil.rmtree(logdir) #先強制刪除該文件夾,後面再新建
os.mkdir(logdir)
output_model_file=os.path.join(logdir,"fashion_mnist_model.h5")#在logdir中創建一個模型文件.h5
#定義一個callbacks數組
callbacks = [
keras.callbacks.TensorBoard(logdir),
keras.callbacks.ModelCheckpoint(output_model_file,save_best_only=True),#這裏第二個參數表示僅保存最好的那個模型
keras.callbacks.EarlyStopping(patience=5,min_delta=1e-3)
]
'''
#在未做數據集歸一化時這裏直接將x_train三維矩陣轉換爲四維
x_train = x_train.reshape(-1,28,28,1)
x_valid = x_valid.reshape(-1,28,28,1)
x_test = x_test.reshape(-1,28,28,1)
'''
#fit用於訓練
history=model.fit(x_train_scaled, y_train, epochs=10, #epochs用於遍歷訓練集次數
validation_data=(x_valid_scaled,y_valid),#加入驗證集,每隔一段時間就對驗證集進行驗證
callbacks=callbacks)
'''
history=model.fit(x_train, y_train, epochs=10, #epochs用於遍歷訓練集次數
validation_data=(x_valid,y_valid),#加入驗證集,每隔一段時間就對驗證集進行驗證
callbacks=callbacks)
'''
Train on 55000 samples, validate on 5000 samples
Epoch 1/10
55000/55000 [==============================] - 16s 290us/sample - loss: 0.5224 - accuracy: 0.8074 - val_loss: 0.3760 - val_accuracy: 0.8624
Epoch 2/10
55000/55000 [==============================] - 12s 224us/sample - loss: 0.3129 - accuracy: 0.8863 - val_loss: 0.2872 - val_accuracy: 0.8974
Epoch 3/10
。。。
Epoch 10/10
55000/55000 [==============================] - 14s 262us/sample - loss: 0.1238 - accuracy: 0.9537 - val_loss: 0.2709 - val_accuracy: 0.9100
#將上面history中的數據指標用一張圖來表示
def plot_learning_curves(history):
pd.DataFrame(history.history).plot(figsize=(8,5)) #設置圖的大小
plt.grid(True) #顯示網格
plt.gca().set_ylim(0,1) #設置y軸範圍
plt.show()
plot_learning_curves(history)
#測試集上進行測試評估一下
model.evaluate(x_test_scaled,y_test)
10000/1 [================。。。=================================] - 1s 147us/sample - loss: 0.3051 - accuracy: 0.9109
[0.2942018260926008, 0.9109]