在使用horovod autotune 功能 ,提示
horovodrun: error: unrecognized arguments: --autotune --autotune-log-file
horovod -h 查看 確實沒有 autotune
horovod -v 查看 版本 0.16.1
於是 按照相關命令
HOROVOD_GPU_ALLREDUCE=NCCL HOROVOD_GPU_BROADCAST=NCCL pip3 install horovod==0.19.0
安裝順利完成,但在運行腳本後
輸入 horovod -h 可以看到該版本有 autotune了
運行代碼後 報
ImportError: Extension horovod.tensorflow has not been built reinstall Horovod with
HOROVOD_WITH_TENSORFLOW=1 to debug the build error
最後解決 : 避免進入各種坑中坑 dockers pull 對應0.19 版本的 容器吧 ,再改改代碼