使用分佈式框架horovod ,初步使用了單機多卡 ,跑測的estimator, 數據集大概十幾個分類,1萬張照照片,調用4個gpu
從圖裏看出訓練時長17個小時左右 ,與之前單機單卡訓練時長和準確率沒有太大區別,浪費資源啊!
看了horvord的訓練模式,分別起了4個進程,而不是一個進程
該操作 與TF 的experimental.MultiWorkerMirroredStrategy操作用法一樣,相對使用起來方便一些
使用分佈式框架horovod ,初步使用了單機多卡 ,跑測的estimator, 數據集大概十幾個分類,1萬張照照片,調用4個gpu
從圖裏看出訓練時長17個小時左右 ,與之前單機單卡訓練時長和準確率沒有太大區別,浪費資源啊!
看了horvord的訓練模式,分別起了4個進程,而不是一個進程
該操作 與TF 的experimental.MultiWorkerMirroredStrategy操作用法一樣,相對使用起來方便一些