windows 运行pytorch,在服务器上运行没有失败,但是什么都训练不出来。

这个问题干扰我一天的进度了。
目前,终于找到!!!!

没有报错的情况下,大概率是导入数据问题。我先说下我的具体的check步骤。

检查代码是否上传失败, 重新上传代码
检查数据集上传是否正确
检查代码数据集导入路径是否正确
检查dataloader returen的data和label

最后发现os.listdir() 在ubuntu中是乱序读入数据的。。。所以模型data与label压根没配对。。。
以此为戒,希望后续牢记。关于,集群debug,参考博客

我最后的处理方法。(我的data是png,label是tiff)

        self.data_name = os.listdir(data_path)
        # self.label_name = os.listdir(label_path)
        self.label_name = self.data_name.copy()
        self.label_name = [name.replace(".png", ".tiff") for name in self.label_name]

        self.data_path = []
        self.label_path = []

        for data, label in zip(self.data_name, self.label_name):
            self.data_path.append(data_path + "/" + data)
            self.label_path.append(label_path + "/" + label)

在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章