深度學習中的類別激活熱圖可視化



來源:AI公園

本文約1500字,建議閱讀5分鐘使用Keras實現圖像分類中的激活熱圖的可視化,幫助更有針對性的改進模型。

類別激活圖(CAM)是一種用於計算機視覺分類任務的強大技術。它允許研究人員檢查被分類的圖像,並瞭解圖像的哪些部分/像素對模型的最終輸出有更大的貢獻。

基本上,假設我們構建一個CNN,目標是將人的照片分類爲“男人”和“女人”,然後我們給它提供一個新照片,它返回標籤“男人”。有了CAM工具,我們就能看到圖片的哪一部分最能激活“Man”類。如果我們想提高模型的準確性,必須瞭解需要修改哪些層,或者我們是否想用不同的方式預處理訓練集圖像,這將非常有用。

在本文中,我將向你展示這個過程背後的思想。爲了達到這個目的,我會使用一個在ImageNet上預訓練好的CNN, Resnet50。

我在這個實驗中要用到的圖像是,這隻金毛獵犬:

首先,讓我們在這張圖上嘗試一下我們預訓練模型,讓它返回三個最有可能的類別:

from keras.applications.resnet50 import ResNet50
from keras.preprocessing import image
from keras.applications.resnet50 import preprocess_input, decode_predictions
import numpy as npmodel = ResNet50(weights='imagenet')img_path = 'golden.jpg'
img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = preprocess_input(x)preds = model.predict(x)
# decode the results into a list of tuples (class, description, probability)

print('Predicted:', decode_predictions(preds, top=3)[0])

如你所見,第一個結果恰好返回了我們正在尋找的類別:Golden retriver。


現在我們的目標是識別出我們的照片中最能激活黃金標籤的部分。爲此,我們將使用一種稱爲“梯度加權類別激活映射(Grad-CAM)”的技術

(官方論文:https://arxiv.org/abs/1610.02391)。

這個想法是這樣的:想象我們有一個訓練好的CNN,我們給它提供一個新的圖像。它將爲該圖像返回一個類。然後,如果我們取最後一個卷積層的輸出特徵圖,並根據輸出類別對每個通道的梯度對每個通道加權,我們就得到了一個熱圖,它表明了輸入圖像中哪些部分對該類別激活程度最大。

讓我們看看使用Keras的實現。首先,讓我們檢查一下我們預先訓練過的ResNet50的結構,以確定我們想要檢查哪個層。由於網絡結構很長,我將在這裏只顯示最後的block:

from keras.utils import plot_model
plot_model(model)



讓我們使用最後一個激活層activation_49來提取我們的feature map。

golden = model.output[:, np.argmax(preds[0])]
last_conv_layer = model.get_layer('activation_49')

from keras import backend as K

grads = K.gradients(golden, last_conv_layer.output)[0]
pooled_grads = K.mean(grads, axis=(0, 1, 2))
iterate = K.function([model.input], [pooled_grads, last_conv_layer.output[0]])
pooled_grads_value, conv_layer_output_value = iterate([x])
for i in range(pooled_grads.shape[0]):
    conv_layer_output_value[:, :, i] *= pooled_grads_value[i]
heatmap = np.mean(conv_layer_output_value, axis=-1)

import matplotlib.pyplot as plt

heatmap = np.maximum(heatmap, 0)
heatmap /= np.max(heatmap)
plt.matshow(heatmap)

這個熱圖上看不出什麼東西出來。因此,我們將該熱圖與輸入圖像合併如下:

import cv2
img = cv2.imread(img_path)
heatmap = cv2.resize(heatmap, (img.shape[1], img.shape[0]))
heatmap = np.uint8(255 * heatmap)
heatmap = cv2.applyColorMap(heatmap, cv2.COLORMAP_JET)
merged= heatmap * 0.4 + imgplt.imshow(merged)



如你所見,圖像的某些部分(如鼻子部分)特別的指示出了輸入圖像的類別。

英文原文:

https://valentinaalto.medium.com/class-activation-maps-in-deep-learning-14101e2ec7e1

編輯:文婧

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章