pytorch在同一臺服務器上同時訓練多個任務

原創

2019-09-26 19:33

使用pytoch在同一臺服務器上同時訓練多個任務時會出現以下問題：

File "./torch-dist/mnist-dist.py", line 201, in <module>
    init_processes(args.rank, args.world_size, run, args.batch_size, backend=args.backend)
  File "./torch-dist/mnist-dist.py", line 196, in init_processes
    dist.init_process_group(backend=backend, world_size=world_size, rank=rank, init_method="env://")
  File "/home/dl/anaconda2/envs/torch-dist-py3.6/lib/python3.6/site-packages/torch/distributed/distributed_c10d.py", line 354, in init_process_group
    store, rank, world_size = next(rendezvous(url))
  File "/home/dl/anaconda2/envs/torch-dist-py3.6/lib/python3.6/site-packages/torch/distributed/rendezvous.py", line 143, in _env_rendezvous_handler
    store = TCPStore(master_addr, master_port, start_daemon)
RuntimeError: Address already in use

解決辦法：
try specifying a different master_addr and master_port in torch.distributed.launch

CUDA_VISIBLE_DEVICES=${GPU_ID} python -m torch.distributed.launch --nproc_per_node=$NGPUS --master_addr 127.0.0.2 --master_port 29501 tools/train_net.py

ref: https://github.com/facebookresearch/maskrcnn-benchmark/issues/241

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

pytorch debugging PyCharm/Pycharm調試 pytorch 查看變量顯示 timimg out

問題 pycharm 調試的時候，變量顯示 timing out 解決方案把 num_workers 設置爲0 reference ：https://stackoverflow.com/questions/59030675

冬日and暖阳

2020-07-08 12:39:09

MNIST數據集手寫數字識別

pytorch的MNIST數據集手寫數字識別(GPU) 數據集介紹 MNIST 包括6萬張28x28的訓練樣本，1萬張測試樣本，很多教程都會對它”下手”幾乎成爲一個 “典範”，可以說它就是計算機視覺裏面的Hello World。所

2020-07-08 05:29:48

PyTorch踩過的坑（長期更新，轉載請註明出處）

最近在知乎看到有人轉載了這裏的內容，提醒一下，歡迎轉載，但是請註明出處，謝謝。 1. nn.Module.cuda() 和 Tensor.cuda() 的作用效果差異無論是對於模型還是數據，cuda()函數都能實現從CPU到GPU的

2020-07-08 10:35:24

深度學習中，網絡層的初始化 Linerar層 BatchNormld(BN)層

模塊初始化 class IDE(nn.Module): def __init__(self, num_classes): super(IDE, self).__init__() resn

若比达法则

2020-07-08 06:30:38

pytorch 中參數的保存（save），加載操作（load）

最近寫程序，遇到了保存和加載參數的問題，隨通過查閱，留下筆記。文章目錄參數的保存參數的加載參數的保存首先，參數的保存用的是 torch.save()，具體操作： for epoch in range(num_epoch):

若比达法则

2020-07-08 06:30:38

pytorch 60分鐘入門

numpy中的ndarray方法和屬性 1 NumPy數組的維數稱爲秩（rank），一維數組的秩爲1，二維數組的秩爲2，以此類推。這個跟線性代數的秩不太一樣。 2 在NumPy中，每一個線性的數組稱爲是一個軸（axes），秩其實是

2020-07-08 05:29:49

通過PyTorch實現風格遷移

一.環境及數據集準備 pytorch 1.1.0 torchvision 0.3.0 cuda 9.0 數據集用的是COCO2014的train2014訓練集，使用ImageNet也可以需要用到在ImageNet上預訓練好的VG

2020-07-08 05:29:32

Pytorch批量數據讀取方法詳解: DataLoader

在訓練模型的過程中，我們需要不斷的讀取小批量的數據樣本。Pytorch提供了data包來讀取數據。接下來我將人工生成一些數據，然後使用data包來處理數據。 import torch import numpy as np '''

2020-07-08 04:10:07

subprocess.py報錯：FileNotError: [Errno 2] No such file or directory: java: java

在運行coco計算ImageCaption得分時，出現以下錯誤： subprocess.py報錯：FileNotError: [Errno 2] No such file or directory: 'java': 'java' 原因：

清晨的光明

2020-07-08 02:37:26

Pytorch知識點與問題解決

文|Seraph 01 | 知識點 torcht.is_tensor(a) 判斷是否爲張量 Pytorch GPU環境是否正常測試代碼： import torch flag = torch.cuda.is_available(

2020-07-08 00:56:51

pytorch實驗trick記錄

這裏記錄了使用pytorch進行實驗的一些tricks，這些tricks來自自己的實驗經驗以及大佬們的經驗，不斷更新中一次性保存所有實驗參數並在下次加載以復現網絡參數使用pytorch時減小顯存的辦法

Life will be better

2020-07-07 23:46:23

Pytorch: dataloader的一些使用心得

Pytorch: Dataloader的一些使用心得這篇博文不講原理，只講一些使用方法和技巧。所有提供的信息僅供參考，不要當作金科玉律。文章目錄Pytorch: Dataloader的一些使用心得基本程序框架從datalo

2020-07-07 23:40:48

Pytorch|YOWO原理及代碼詳解(二)

Pytorch|YOWO原理及代碼詳解(二) 本博客上接，Pytorch|YOWO原理及代碼詳解(一)，閱前可看。 1.正式訓練 if opt.evaluate: logging('evaluating .

2020-07-07 23:39:48

Pytorch|YOWO原理及代碼詳解(三)

Pytorch|YOWO原理及代碼詳解(三) 本博客上接， Pytorch|YOWO原理及代碼詳解(一)， Pytorch|YOWO原理及代碼詳解(二)，閱前可看。 1. test分析 if opt.evaluate:

2020-07-07 23:39:48

Pytorch|YOWO原理及代碼詳解(一)

Pytorch|YOWO原理及代碼詳解（一）閱前可看：YOWO論文翻譯 YOWO很有趣，使用價值很大，最近剛好需要，所以就研究一下。一直認爲只有把源碼看懂，才知道諸多細節，纔算真正瞭解一個算法。筆者能力有限，博文若有出錯，歡迎指

2020-07-07 23:39:37

24小時熱門文章

最新文章

最新評論文章