Pytorch distributed RuntimeError: Address already in use

原創

2020-04-20 07:40

Pytorch distributed RuntimeError: Address already in use

如果是使用pytorch distributed 單機多卡訓練方式，出現該錯誤，非常好解決。

Traceback (most recent call last):
  File "main1.py", line 279, in <module>
    train(args, io,root)
  File "main1.py", line 53, in train
    torch.distributed.init_process_group('nccl', init_method='env://')
  File "/home/labpos/anaconda3/envs/ldr/lib/python3.6/site-packages/torch/distributed/distributed_c10d.py", line 400, in init_process_group
    store, rank, world_size = next(rendezvous(url))
  File "/home/labpos/anaconda3/envs/ldr/lib/python3.6/site-packages/torch/distributed/rendezvous.py", line 143, in _env_rendezvous_handler
    store = TCPStore(master_addr, master_port, world_size, start_daemon)
RuntimeError: Address already in use

在啓動分佈式訓練時，加上端口號（任意）即可解決：

CUDA_VISIBLE_DEVICES=0,1 python -m torch.distributed.launch --nproc_per_node=2  --master_port 29501  main.py

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

什麼是LLM大模型訓練，詳解Transformer結構模型

本文分享自華爲雲社區《LLM 大模型學習必知必會系列(四)：LLM訓練理論篇以及Transformer結構模型詳解》，作者：汀丶。 1.模型/訓練/推理知識介紹深度學習領域所謂的“模型”，是一個複雜的數學公式構成的計算步驟。爲了便於理解

2024-06-04 11:09:34

GLM國產大模型訓練加速：高效性能與成本優化的實踐

隨着人工智能技術的不斷進步，大模型的訓練成爲了推動深度學習領域發展的重要力量。然而，傳統的訓練方式往往面臨着性能瓶頸和高昂的成本問題，這使得許多研究者和開發者望而卻步。爲了解決這一難題，我們探索了使用OneFlow框架對GLM國產大模型進行

2024-05-07 23:30:09

基於香橙派AIpro將開源框架模型轉換爲昇騰模型

本文分享自華爲雲社區《如何基於香橙派AIpro將開源框架模型轉換爲昇騰模型》，作者：昇騰CANN。在前面的介紹中，我們知道了如何基於香橙派AIpro開發AI推理應用，也大致瞭解到在推理之前，需要把原始網絡模型 (可能是 PyTorch 的

2024-04-12 10:32:18

大模型分佈式訓練並行技術

隨着深度學習的發展，模型規模逐漸增大，數據量和計算需求也呈爆炸式增長。在單個計算設備上完成大模型的訓練變得不切實際，因此，分佈式訓練成爲了解決這一問題的關鍵。在分佈式訓練中，數據並行是一種非常有效的策略，通過將數據和計算任務分佈到多個計算設

2024-04-10 23:29:41

Ascend C 自定義PRelu算子

本文分享自華爲雲社區《Ascend C 自定義PRelu算子》，作者： jackwangcumt。 1 PRelu算子概述 PReLU是 Parametric Rectified Linear Unit的縮寫，首次由何凱明團隊提出，和Le

2024-04-08 10:33:15

TorchAcc：基於 TorchXLA 的分佈式訓練框架

本文旨在探討阿里雲 TorchAcc，這是一個基於 PyTorch/XLA 的大模型分佈式訓練框架。過去十年 AI 領域的顯著進步，關鍵在於訓練技術的革新和模型規模的快速攀升。儘管大模型展現了堪比人類的理解力，但其訓練卻對算力提出了極高的

2024-04-01 23:39:48

百億大規模圖在廣告場景的應用

本文通過搜索推薦項目進行外賣搜索廣告弱供給填充，提高流量變現效率。我們提出外賣多場景異構大圖、異構大圖在線建模技術演進路線，解決外賣搜索推薦業務多渠道、即時化的挑戰。相關成果發表CIKM2023會議一篇。聯合機器學習平臺搭建大規模圖訓練、

2024-03-29 21:16:38

YOLOX 訓練自定義數據 - VOC2007數據集

官方文檔 - Train Custom Data 環境說明 Windows11 Git，可選 Python 3.10.9 [下載地址] GTX 1050Ti CUDA Toolkits 12 先決條件安裝 Nvidia 顯卡驅動

2024-03-22 22:22:28

挖掘M2 Pro 32G UMA內存潛力：在Mac上本地運行清華大模型ChatGLM2-6B

隨着人工智能技術的飛速發展，自然語言處理（NLP）成爲了研究熱點。ChatGLM2-6B是清華大學開源的一款大模型，具有強大的語言生成和理解能力。然而，由於其龐大的模型規模，對硬件資源的要求較高。本文將介紹如何在配備M2 Pro 32G U

2024-03-21 00:28:35

阿里雲容器服務助力萬興科技 AIGC 應用加速

2023 年堪稱是 AIGC 元年，文生圖領域誕生了 Stable Diffusion 項目，文生文領域誕生了 GPT 家族。一時間風起雲湧，國內外許多企業投身 AIGC 創新浪潮，各大雲廠商緊隨其後紛紛推出自己的大語言模型。在文生圖領域落

2023-12-28 01:18:57

RK35XX NPU開發指南

模擬環境開發這裏的模擬環境就是在PC上去模擬開發板的開發、調試，跟開發板本身沒有關係。我這裏的操作系統環境爲Ubuntu 20.04。首先安裝Anaconda，具體操作請參考烏班圖安裝Pytorch、Tensorflow Cuda環境

2023-10-28 13:42:10

便捷、快速、穩定、高性能！以 GPU 實例演示 Alibaba Cloud Linux 3 對 AI 生態的支持

日前，Alibaba Cloud Linux 3 爲使 AI 開發體驗更高效，提供了一些優化升級，本文爲“Alibaba Cloud Linux 3 AI 能力介紹”系列文章預告篇，以 GPU 實例爲例，爲大家演示 Alibaba Clou

2023-09-09 00:19:13

雲原生 AI 工程化實踐之 FasterTransformer 加速 LLM 推理

01 背景 OpenAI 在 3 月 15 日發佈了備受矚目的 GPT4，它在司法考試和程序編程領域的驚人表現讓大家對大語言模型的熱情達到了頂點。人們紛紛議論我們是否已經跨入通用人工智能的時代。與此同時，基於大語言模型的應用也如雨後春筍般

2023-08-15 00:37:15

深度學習彈性數據流水線系統 GoldMiner，大幅提升任務和集羣效率

第一板塊：開篇近日，阿里雲機器學習平臺PAI和北京大學楊智老師團隊合作的論文《GoldMiner: Elastic Scaling of Training Data Pre-Processing Pipelines for Deep L

2023-06-26 00:35:31

【NeurIPS 2022】視頻動作識別，AFNet 用更低的成本接收更多數據

出品人：Towhee 技術團隊顧夢佳爲了避免大量的計算，現有的視頻動作識別方法通常會採樣幾幀來表示每個視頻，然而這往往會限制識別的性能。爲此，Ample and Focal Network（AFNet）提出兩個分支的結構，以用更少的計算

2023-02-20 21:23:33

24小時熱門文章

最新文章

最新評論文章