【英特爾杯比賽】記在DevCloud上訓練模型出現的一系列問題與解決方案

寫這篇博客的目的是幫助以後參加英特爾杯軟件創新大賽的學弟學妹少走彎路:)

情況一:

qsub myjob.txt時出現如下情況:qsub:  script is written in DOS/Windows text format

查了很多網上的內容,只有一種方法可以,竟然它說這種DOS/windows的格式不行,那麼我就將這個文件轉換成Unix文件

需要安裝一個dos2unix的指令“pip install dos2unix”

情況二:

執行了上面的語句“pip install dos2unix”,卻出現瞭如下問題:

Could not install packages due to an EnvironmentError: [Errno 30] Read-only file system: '/glob/intel-python/versions/2019u3/intelpython3/lib/python3.6/site-packages/h5py-2.9.0.dist-info'
Please use "pip install --user <package>" to install user packages.
Please visit the forums at: https://forums.intel.com/s/topic/0TO0P00000018NNWAY/intel-ai-academy

解決方法:

假如說我要安裝dos2unix庫,那麼我輸入“pip install --user dos2unix”就OK了

情況三:

安裝完成,那麼我來試一試

明明安裝成功了,卻說這個指令不存在,我也沒懂什麼意思。所以繼續找其他方法,直到遇到以下:

安裝,打開後選擇你的文件myjob.txt,手動將它轉換成unix,操作方法如下:

如此文件轉換完成,在myjob.txt的相同目錄生成了一個myjob.txt.bak文件,將他上傳到devcloud相應訓練目錄即可

情況四:

再試一試“qsub myjob.txt.bak”,似乎是成功了

可是“qstat”查看計算結點狀態,並沒有返回信息,說明已經輸出完畢,但是怎麼可能一下子就訓練完了?所以肯定出錯了

打開myjob.txt.bak.e815

發現:

也就是最簡單的包沒引入的問題,但是現在在devcloud上,怎麼解決?

很簡單,在PUTTY上輸入“pip install --user tensorflow”  問題解決。

情況五:

好了,如果你在運行上面的安裝包語句的時候,出現了一下錯誤:

Process exceeded login node resource limit.
Please run jobs on compute nodes using qsub or start an interactive shell using qsub -I.
Please see README.txt or visit the forums at: https://forums.intel.com/s/topic/0TO0P00000018NNWAY/intel-ai-academy

說明你是在登錄節點上運行的,此時已經超出了登錄結點的內存,需要你在計算結點上運行

解決方法:運行 "qsub -I"語句,出現如下內容:

然後繼續安裝就可以了,圖上的安裝語法是錯的,正確的是“pip install --user tensorflow”

問題解決

如果後續仍有異常將繼續更新,也歡迎大家跟我一起討論遇到的問題,如有一些錯誤也歡迎指正~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章