TensorFlow學習之——checkpoints

原創

zcg1942

2019-02-27 20:58

在看別人的訓練網絡中一開頭就遇到這樣一行代碼：

ckpt = tf.train.get_checkpoint_state(directories.checkpoints)

鼠標放在函數名上，ctrl+B，或者ctrl+點擊函數名，可以跳轉到函數的定義，可以知道tf.train.get_checkpoint_state函數通過目錄下的checkpoint文件找到checkpoint狀態proto。

訓練可能分成多次迭代，在迭代期間或者訓練完成測試之前，需要將訓練得到的參數保存到一個文件中，等到需要時再從文件中讀取。TensorFlow提供了兩種模型格式：

checkpoints：這種格式依賴於創建模型的代碼。
SavedModel：這種格式與創建模型的代碼無關。

Checkpoints文件是這樣的一個二進制文件，好比是一箇中轉站，Tensorflow針對這一需提供了Saver類把變量名映射到對應的tensor值，並可以從checkpoints文件中恢復變量。

再回到第一行代碼，返回得到的ckpt其中有model_checkpoint_path和all_model_checkpoint_paths兩個屬性。其中model_checkpoint_path保存了最新的tensorflow模型文件的文件名，all_model_checkpoint_paths則有未被刪除的所有tensorflow模型文件的文件名。

既然有預訓練的模型，就應該把checkpoint文件放入文件夾下。checkpoint文件其實有三個文件組成，後綴名分別是.meta和.index和.data-00000-of-00001文件。

當需要恢復某個模型的參數，繼續進行訓練時，可以使用下面的代碼（不需要加後綴，就可以同時包含三個文件），恢復訓練時的最後一個模型參數：

if args.restore_last and ckpt.model_checkpoint_path: #.model_checkpoint_path保存了最新的tensorflow模型文件的文件名
    # Continue training saved model 繼續訓練已經保存的模型，側面也表明之前有預訓練的模型
    #saver.restore(sess, ckpt.model_checkpoint_path) #恢復模型參數，繼續訓練
    saver.restore(sess,'checkpoints/noiseMScsC8_epoch15.ckpt-15')  # 恢復模型參數，繼續訓練.預訓練了15次，config中默認512次
    #https://www.cnblogs.com/darkknightzh/p/7198773.html
    print('{} restored.'.format(ckpt.model_checkpoint_path))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

TensorFlow學習之——checkpoints

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

公衆號5月C#/.NET熱文一覽

大牛們的資料與主頁

DL中常用的numpy

岡薩雷斯《數字圖像處理》讀書筆記（十一）——表示和描述

岡薩雷斯《數字圖像處理》讀書筆記（九）——形態學圖像處理

U-Net

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結