windows 運行pytorch,在服務器上運行沒有失敗,但是什麼都訓練不出來。

這個問題干擾我一天的進度了。
目前,終於找到!!!!

沒有報錯的情況下,大概率是導入數據問題。我先說下我的具體的check步驟。

檢查代碼是否上傳失敗, 重新上傳代碼
檢查數據集上傳是否正確
檢查代碼數據集導入路徑是否正確
檢查dataloader returen的data和label

最後發現os.listdir() 在ubuntu中是亂序讀入數據的。。。所以模型data與label壓根沒配對。。。
以此爲戒,希望後續牢記。關於,集羣debug,參考博客

我最後的處理方法。(我的data是png,label是tiff)

        self.data_name = os.listdir(data_path)
        # self.label_name = os.listdir(label_path)
        self.label_name = self.data_name.copy()
        self.label_name = [name.replace(".png", ".tiff") for name in self.label_name]

        self.data_path = []
        self.label_path = []

        for data, label in zip(self.data_name, self.label_name):
            self.data_path.append(data_path + "/" + data)
            self.label_path.append(label_path + "/" + label)

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章