利用多重映射從本地查看集羣的tensorboard

訓練過程的可視化對實驗的成功是非常重要的,tensorboard工具強大,能夠提供很好的可視化數據分析。

由於本實驗室集羣上沒有可視化端口,從本地查看集羣任務的tensorboard着實有點費勁,下面說一下查看教程。

思路:

         可以將集羣的tensorboard端口(一般是6006)映射到本地端口。

情況介紹:

         實驗室集羣分爲計算節點cu01,cu02,cu03和網絡節點mu01,在計算節點是沒有網絡的。所以在映射的時候計算節點的端口是不能直接映射到本地的,只能通過mu01映射到本地,也就是說要有二級映射才能解決問題。

 

方法: 

1.本地到MU01:

 在Git Bash(沒有的話可以下載)運行 MU01到本地的映射並登陸自己的集羣賬號:

                                                           ssh -L 8008:127.0.0.1:8008 [email protected]

上面這一句可以寫在一個tb.bat文件裏,當打開Git Bash的時候找到tb.bat文件(建議放在C盤的User本目錄下,因爲打開Git Bash時就直接在C:/User下了),然後運行: ./tb.bat, 當然你可以寫成一個tb.sh 文件,放在任意位置,直接雙擊該tb.sh文件就可以運行此程序。另外要十分注意的是端口號可以自己選擇,官方默認6006,但是集羣的tensorboard端口會有很多人用,所以6006可能會已被佔用,所以你要自己再找一個端口,在這裏我用的是8008,所以8008,我已經用了,大家再選其他端口吧。另外,Git Bash指針對Windows,如果是Linux可以直接在終端中運行。

 

2.CU01到MU01:

經過上一步你已經進入集羣了,這個時候是在MU01下面,你要將CU01的端口映射到MU01,只需要運行下面代碼:

                                                                           ssh -L 8008:127.0.0.1:8008 cu01

3.運行tensorboard指令:

由於我的tensorboard是在PyTorch環境裏面,所以我要運行source activate pytorch激活環境後,然後再運行tensorboard指令:

                                                  tensorboard --logdir=/home/FENGsl/J/Log/OCT --port=8008

注意後面的--port要寫你選擇的端口。

這個時候打開本地的瀏覽器,直接輸入http://localhost:8008就可以看到了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章