利用遠程雲服務器跑深度學習模型

利用遠程雲服務器跑深度學習模型主要有三個問題需要解決。

一是深度學習環境的搭建,二是已搭建環境的保存,三是遠程數據的傳輸。

深度學習環境的搭建

以阿里云爲例,在購買服務器創建實例時,可以在鏡像市場選擇購買已經配置好環境裝好驅動的鏡像。其優點是可以省去大量自己配置環境和安裝顯卡驅動的時間;而缺點在於不能自己選擇深度學習框架和其它軟件的版本,在後續自己安裝其他軟件或者函數庫時可能發生兼容問題。下圖是阿里雲鏡像市場提供的一個已有預裝環境的系統。

對於一臺新購買的雲服務器,深度學習環境的搭建無外乎安裝Anaconda、TensorFlow或PyTorch,以及其他用於數據處理的庫,例如numpy/pandas/matplotlib/sklearn/jupyter notebook,等等。另外還可根據需要安裝keras,以及顯卡驅動。具體教程在此不一一贅述。

 

已搭建環境的保存

對於自己配置環境的雲服務器,可以製作自定義鏡像保存,以便在釋放實例後再次創建其他實例時可以快速創建環境。在每次創建實例時選擇按量付費,選擇自定義鏡像,做玩一次實驗後對數據做好備份(保存快照或者遠程傳輸到本地電腦),然後釋放實例。如此可以將費用降到最低。

根據實例創建自定義鏡像

根據自定義鏡像創建實例

 

遠程數據的傳輸

在運行深度學習模型時,爲了防止長時間無操作而導致遠程連接斷開,可以讓模型在後臺運行。

source activate tensorflow_env # 激活深度學習環境
nohup jupyter notebook & # 後臺運行並將數據保存到nohup.out文件中
nohup jupyter notebook --allow-root & # 如果是root用戶

ps -aux | grep jupyter # 查看jupyter notebook進程號,假設是1842
kill -9 1842 # 停止後臺運行

如果需要遠程傳輸數據,可以安裝putty/scp/pscp。本地Windows系統請安裝pscp.exe,將其放在C:\Windows\System32\文件夾下。

# 將Windows本地的file.txt上傳到遠程Linux服務器
# 服務器文件路徑爲:用戶名@服務器公網IP:文件路徑
pscp E:\jupyter_notebook\workplace\file.txt root@服務器公網IP:/root/workplace

# 將遠程服務器上的數據下載到本地Windows文件夾
pscp root@服務器公網IP:/root/workplace/data.npy E:\jupyter_notebook\workplace\data.npy

以上。

 

參考文章

https://blog.csdn.net/Lo_Bamboo/article/details/78601328

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章