大模型學習 - 內網環境搭建

大模型學習 - 內網環境搭建

環境:

  • 內網,以下安裝均爲離線安裝
  • 系統:Linux cdh12 3.10.0-1160.e17.x86_64
  • 內存(377G)、GPU(P40-25G)*8)

安裝Anaconda

參考:

在回車接收許可時,可得按慢點,不然還得重新開始:

image-20230921160855441

安裝CUDA Toolkit

參考:https://blog.csdn.net/weixin_44864260/article/details/127770525

我拿到機器的時候已經安裝好:

image-20230922102736668

離線安裝PyTorch

參考:https://blog.csdn.net/weixin_44864260/article/details/127770525

我這裏選擇的是:

image-20230922111647160

沒有創建虛擬環境,直接在base中執行安裝,但報錯了,是依賴包沒有安裝:

image-20230922103402055

開始逐個安裝依賴,阿里源地址(https://mirrors.aliyun.com/pypi/simple/),Pypi源(https://mirrors.aliyun.com/pypi/simple/):

image-20230922104120945

最好安裝torch 2.0以上版本,但通過這種方式一直安裝不上!!!

  • 安裝2.0.0以上

參考:零基礎之Centos7下使用Conda安裝Pytorch環境

我這裏的環境是:

image-20230926125559977

所以需要下載,下載地址:清華源

  • pytorch
  • torchvision
  • torchaudio
  • pytorch-cuda=11.7

image-20230926130036908

然後逐個安裝即可:

image-20230926130218115

檢測一下:

image-20230926130257860

linux免密登陸

主機:Windows,目標主機:Linux

參考:windows實現ssh免密登錄服務器

重點就是密鑰生成:

ssh-keygen

然後上傳公鑰至服務器!

VScode遠程訪問

參考:VSCode內網遠程連接服務器

注意:下載對應的ms-vscode-remote.remote-ssh插件時,內網和外網的VScode版本一定得一直,不然安裝失敗。

在執行完第2步時,我這在側邊欄中並不會出現遠程連接的符號:

image-20230921155024164

爲了繼續執行(),按F1調出命令控制,輸入ssh ,選擇:

image-20230921155307444

在設置好連接信息後,選擇對應的別名,根據提示填入密碼,即可控制:

image-20230921155442781

在遠程給服務器安裝vscode-server-linux-x64.tar.gz時,需要注意,替換commit_id即可,不加${}:

mkdir -p ~/.vscode-server/bin/commit_id
tar -zxvf /tmp/vscode-server-linux-x64.tar.gz -C ~/.vscode-server/bin/commit_id --strip 1
touch ~/.vscode-server/bin/commit_id/0

這樣就可以了!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章