paddle深度學習基礎之訓練調試與優化

paddle深度學習基礎之訓練調試與優化

前言

上一節咱們討論了四種不同的優化算法,這一節,咱們討論訓練過程中的優化問題。本次代碼修改模型全是在卷積神經網絡

網絡結構

img

優化思路

  1. 計算分類準確率,觀測模型訓練效果
  2. 檢查模型訓練過程,通過輸出訓練過程中的某些參數或者中間結果,識別潛在問題
  3. 加入校驗或測試,更好評價模型效果
  4. 加入正則化項,避免模型過擬合
  5. 可視化分析

一、計算模型的分類準確率

通過計算訓練的準確度,能夠比較直接的反應模型的精準程度。

在paddle框架中,我們可以使用自帶的準確率計算方法:

fluit.layers.accuracy(prediction,lable)

第一個參數是預測值,第二個參數是實際標籤值。下面是代碼中需要修改的地方:

    def forward(self, inputs,label):
        conv1 = self.conv1(inputs)
        pool1 = self.pool1(conv1)
        conv2 = self.conb2(pool1)
        pool2 = self.pool2(conv2)
        pool2 = fluid.layers.reshape(pool2, [pool2.shape[0], -1])
        outputs = self.linear(pool2)
        if label is not None:#添加
            acc = fluid.layers.accuracy(input=outputs,label=label)#添加
            return outputs,acc
        else:
            return outputs
        

輸出結果:

epoch: 0, batch: 0, loss is: [2.796657], acc is [0.04]
epoch: 0, batch: 200, loss is: [0.50403804], acc is [0.88]
epoch: 0, batch: 400, loss is: [0.2659506], acc is [0.92]
epoch: 1, batch: 0, loss is: [0.22079289], acc is [0.92]
epoch: 1, batch: 200, loss is: [0.23240374], acc is [0.92]
epoch: 1, batch: 400, loss is: [0.16370663], acc is [0.95]
epoch: 2, batch: 0, loss is: [0.37291032], acc is [0.92]
epoch: 2, batch: 200, loss is: [0.23772442], acc is [0.92]
epoch: 2, batch: 400, loss is: [0.18071894], acc is [0.95]
epoch: 3, batch: 0, loss is: [0.15938215], acc is [0.95]
epoch: 3, batch: 200, loss is: [0.21112804], acc is [0.92]
epoch: 3, batch: 400, loss is: [0.05794979], acc is [0.99]
epoch: 4, batch: 0, loss is: [0.24466723], acc is [0.93]
epoch: 4, batch: 200, loss is: [0.14045799], acc is [0.96]
epoch: 4, batch: 400, loss is: [0.12366832], acc is [0.94]

二、檢查模型訓練過程

在我們訓練模型時,時常會出現結果和我們預期有很大差距。此時,我們就想了解訓練過程中數據的變化過程。恰巧,paddle深度學習框架支持這些功能,我們一起去看看如何做的:

class MNIST(fluid.dygraph.Layer):
    def __init__(self):
        super(MNIST, self).__init__()
        # self.linear1 = Linear(input_dim=28*28,output_dim=10,act=None)
        # self.linear2 = Linear(input_dim=10,output_dim=10,act='sigmoid')
        # self.linear3 = Linear(input_dim=10,output_dim=1,act='sigmoid')
        self.conv1 = Conv2D(num_channels=1, num_filters=20, filter_size=5, stride=1, padding=2, act='relu')
        self.pool1 = Pool2D(pool_size=2, pool_stride=2, pool_type='max')
        self.conb2 = Conv2D(num_channels=20, num_filters=20, filter_size=5, stride=1, padding=2, act='relu')
        self.pool2 = Pool2D(pool_size=2, pool_stride=2, pool_type='max')
        self.linear = Linear(input_dim=980, output_dim=10, act='softmax')
    def forward(self, inputs,label,check_shape=False,check_content=False):
        conv1 = self.conv1(inputs)
        pool1 = self.pool1(conv1)
        conv2 = self.conb2(pool1)
        pool2 = self.pool2(conv2)
        pool21 = fluid.layers.reshape(pool2, [pool2.shape[0], -1])
        outputs = self.linear(pool21)
        # hidden1 = self.linear1(inputs)
        # hidden2 = self.linear2(hidden1)
        # outputs = self.linear3(hidden2)
        if(check_shape):
            print("\n------------打印各個層設置的網絡超參數的尺寸 -------------")
            print("conv1-- kernel_size:{}, padding:{}, stride:{}".format(self.conv1.weight.shape, self.conv1._padding, self.conv1._stride))
            print("conv2-- kernel_size:{}, padding:{}, stride:{}".format(self.conv2.weight.shape, self.conv2._padding, self.conv2._stride))
            print("pool1-- pool_type:{}, pool_size:{}, pool_stride:{}".format(self.pool1._pool_type, self.pool1._pool_size, self.pool1._pool_stride))
            print("pool2-- pool_type:{}, poo2_size:{}, pool_stride:{}".format(self.pool2._pool_type, self.pool2._pool_size, self.pool2._pool_stride))
            print("liner-- weight_size:{}, bias_size_{}, activation:{}".format(self.fc.weight.shape, self.fc.bias.shape, self.fc._act))

            print("\n------------打印各個層的形狀 -------------")
            print("inputs_shape: {}".format(inputs.shape))
            print("outputs1_shape: {}".format(conv1.shape))
            print("outputs2_shape: {}".format(pool1.shape))
            print("outputs3_shape: {}".format(conv2.shape))
            print("outputs4_shape: {}".format(pool2.shape))
            print("outputs5_shape: {}".format(outputs.shape))

        if check_content:
            # 打印卷積層的參數-卷積核權重,權重參數較多,此處只打印部分參數
            print("\n########## print convolution layer's kernel ###############")
            print("conv1 params -- kernel weights:", self.conv1.weight[0][0])
            print("conv2 params -- kernel weights:", self.conv2.weight[0][0])

            # 創建隨機數,隨機打印某一個通道的輸出值
            idx1 = np.random.randint(0, conv1.shape[1])
            idx2 = np.random.randint(0, conv1.shape[1])
            # 打印卷積-池化後的結果,僅打印batch中第一個圖像對應的特徵
            print("\nThe {}th channel of conv1 layer: ".format(idx1), conv1[0][idx1])
            print("The {}th channel of conv2 layer: ".format(idx2), conv1[0][idx2])
            print("The output of last layer:", conv1[0], '\n')
        if label is not None:
            acc = fluid.layers.accuracy(input=outputs,label=label)
            return outputs,acc
        else:
            return outputs

輸出結果:

------------打印各個層設置的網絡超參數的尺寸 -------------
conv1-- kernel_size:[20, 1, 5, 5], padding:[2, 2], stride:[1, 1]
conv2-- kernel_size:[20, 20, 5, 5], padding:[2, 2], stride:[1, 1]
pool1-- pool_type:max, pool_size:[2, 2], pool_stride:[2, 2]
pool2-- pool_type:max, poo2_size:[2, 2], pool_stride:[2, 2]
liner-- weight_size:[980, 10], bias_size_[10], activation:softmax

------------打印各個層的形狀 -------------
inputs_shape: [20, 1, 28, 28]
outputs1_shape: [20, 20, 28, 28]
outputs2_shape: [20, 20, 14, 14]
outputs3_shape: [20, 20, 14, 14]
outputs4_shape: [20, 20, 7, 7]
outputs5_shape: [20, 10]

三、加入校驗或者測試,更好的評價模型

通常在我們獲取數據集時,通常將數據集分成三個部分,分別是訓練集,校驗集,測試集。

  • 訓練集 :用於訓練模型的參數,即訓練過程中主要完成的工作。
  • 校驗集 :用於對模型超參數的選擇,比如網絡結構的調整、正則化項權重的選擇等。
  • 測試集 :用於模擬模型在應用後的真實效果。因爲測試集沒有參與任何模型優化或參數訓練的工作,所以它對模型來說是完全未知的樣本。在不以校驗數據優化網絡結構或模型超參數時,校驗數據和測試數據的效果是類似的,均更真實的反映模型效果。

四、加入正則化項,避免模型過擬合

過擬合現象

對於樣本量有限、但需要使用強大模型的複雜任務,模型很容易出現過擬合的表現,即在訓練集上的損失小,在驗證集或測試集上的損失較大,如 圖2 所示。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-jGYNAyE0-1585745105788)(https://ai-studio-static-online.cdn.bcebos.com/e291cf2ea42947a7b671a71f862b96005270ef0f4b31478f9ef155581622b616)]

​ 圖2:過擬合現象,訓練誤差不斷降低,但測試誤差先降後增

反之,如果模型在訓練集和測試集上均損失較大,則稱爲欠擬合。過擬合表示模型過於敏感,學習到了訓練數據中的一些誤差,而這些誤差並不是真實的泛化規律(可推廣到測試集上的規律)。欠擬合表示模型還不夠強大,還沒有很好的擬合已知的訓練樣本,更別提測試樣本了。因爲欠擬合情況容易觀察和解決,只要訓練loss不夠好,就不斷使用更強大的模型即可,因此實際中我們更需要處理好過擬合的問題。

導致過擬合原因

造成過擬合的原因是模型過於敏感,而訓練數據量太少或其中的噪音太多。

圖3 所示,理想的迴歸模型是一條坡度較緩的拋物線,欠擬合的模型只擬合出一條直線,顯然沒有捕捉到真實的規律,但過擬合的模型擬合出存在很多拐點的拋物線,顯然是過於敏感,也沒有正確表達真實規律。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-jNca1VU7-1585745105789)(https://ai-studio-static-online.cdn.bcebos.com/53ffb08a6a4a4e92ac2e622953dceda225b0452418fe4835863d1814bbe4f744)]

​ 圖3:迴歸模型的過擬合,理想和欠擬合狀態的表現

圖4 所示,理想的分類模型是一條半圓形的曲線,欠擬合用直線作爲分類邊界,顯然沒有捕捉到真實的邊界,但過擬合的模型擬合出很扭曲的分類邊界,雖然對所有的訓練數據正確分類,但對一些較爲個例的樣本所做出的妥協,高概率不是真實的規律。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-7OfBRW1N-1585745105790)(https://ai-studio-static-online.cdn.bcebos.com/d3361a54e3524701ad993c2bb0e341d22c1277f575a7422798ed6fb7a4e5c626)]

​ 圖4:分類模型的欠擬合,理想和過擬合狀態的表現

正則化項

前面咱們提到,過擬合現象就是因爲模型過於複雜,對數據太敏感。所以,我們在無法獲取更多數據時,只能降低模型的複雜度。

具體來說,在模型的優化目標(損失)中人爲加入對參數規模的懲罰項。當參數越多或取值越大時,該懲罰項就越大。通過調整懲罰項的權重係數,可以使模型在“儘量減少訓練損失”和“保持模型的泛化能力”之間取得平衡。泛化能力表示模型在沒有見過的樣本上依然有效。正則化項的存在,增加了模型在訓練集上的損失。

代碼實現

 optimizer = fluid.optimizer.AdamOptimizer(learning_rate=0.01, regularization=fluid.regularizer.L2Decay(regularization_coeff=0.1),
                                              parameter_list=model.parameters())

主要是通過這一句:

regularization=fluid.regularizer.L2Decay(regularization_coeff=0.1)

我們可以調節正則化項的權重,也就是regularization_coeff的值。

五、可視化庫

訓練模型時,經常需要觀察模型的評價指標,分析模型的優化過程,以確保訓練是有效的。可視化分析有兩種工具:Matplotlib庫和tb-paddle。

  • Matplotlib庫:Matplotlib庫是Python中使用的最多的2D圖形繪圖庫,它有一套完全仿照MATLAB的函數形式的繪圖接口,使用輕量級的PLT庫(Matplotlib)作圖是非常簡單的。
  • tb-paddle:如果期望使用更加專業的作圖工具,可以嘗試tb-paddle。tb-paddle能夠有效地展示飛槳框架在運行過程中的計算圖、各種指標隨着時間的變化趨勢以及訓練中使用到的數據信息。

Matplotlib 顯示

通常,我們會把模型訓練的的損失值和訓練次數存進列表中,再通過matplotlib 相關函數進行可視化顯示。

 if batch_id % 100 == 0:
                print("epoch: {}, batch: {}, loss is: {}, acc is {}".format(epoch_id, batch_id, avg_loss.numpy(), acc.numpy()))
                iters.append(iter)
                losses.append(avg_loss.numpy())
                iter = iter + 100

#畫出訓練過程中Loss的變化曲線
plt.figure()
plt.title("train loss", fontsize=24)
plt.xlabel("iter", fontsize=14)
plt.ylabel("loss", fontsize=14)
plt.plot(iters, losses,color='red',label='train loss') 
plt.grid()
plt.show()

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-sizcOGq6-1585745105794)()]

tb-paddle

  • 步驟1:引入tb_paddle庫,定義作圖數據存儲位置(供第3步使用),本案例的路徑是“log/data”。
from tb_paddle import SummaryWriter
data_writer = SummaryWriter(logdir="log/data")
  • 步驟2:在訓練過程中插入作圖語句。當每100個batch訓練完成後,將當前損失作爲一個新增的數據點(scalar_x和loss的映射對)存儲到第一步設置的文件中。使用變量scalar_x記錄下已經訓練的批次數,作爲作圖的X軸座標。
data_writer.add_scalar("train/loss", avg_loss.numpy(), scalar_x)
data_writer.add_scalar("train/accuracy", avg_acc.numpy(), scalar_x)
scalar_x = scalar_x + 100
  • 步驟3:命令行啓動 tensorboard。

使用“tensorboard --logdir [數據文件所在文件夾路徑] 的命令啓動Tensor board。在Tensor board啓動後,命令行會打印出可用瀏覽器查閱圖形結果的網址。

$ tensorboard --logdir log/data
  • 步驟4:打開瀏覽器,查看作圖結果,如 圖6 所示。

查閱的網址在第三步的啓動命令後會打印出來(如TensorBoard 2.0.0 at http://localhost:6006/),將該網址輸入瀏覽器地址欄刷新頁面的效果如下圖所示。除了右側對數據點的作圖外,左側還有一個控制板,可以調整諸多作圖的細節。

注意:這裏需要安裝tensorboard,要不然無法打開這個這個。

令行會打印出可用瀏覽器查閱圖形結果的網址。

$ tensorboard --logdir log/data
  • 步驟4:打開瀏覽器,查看作圖結果,如 圖6 所示。

查閱的網址在第三步的啓動命令後會打印出來(如TensorBoard 2.0.0 at http://localhost:6006/),將該網址輸入瀏覽器地址欄刷新頁面的效果如下圖所示。除了右側對數據點的作圖外,左側還有一個控制板,可以調整諸多作圖的細節。

注意:這裏需要安裝tensorboard,要不然無法打開這個這個。

img

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章