使用分佈式框架horovod 未能提升加速訓練

 使用分佈式框架horovod ,初步使用了單機多卡 ,跑測的estimator, 數據集大概十幾個分類,1萬張照照片,調用4個gpu

從圖裏看出訓練時長17個小時左右 ,與之前單機單卡訓練時長和準確率沒有太大區別,浪費資源啊!

看了horvord的訓練模式,分別起了4個進程,而不是一個進程

該操作 與TF 的experimental.MultiWorkerMirroredStrategy操作用法一樣,相對使用起來方便一些

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章