原创 [源碼解析] PyTorch 分佈式之 ZeroRedundancyOptimizer

[源碼解析] PyTorch 分佈式之 ZeroRedundancyOptimizer 目錄[源碼解析] PyTorch 分佈式之 ZeroRedundancyOptimizer0x00 摘要0x01 歷史1.1 Github說明1.2 解

原创 [源碼解析] PyTorch 分佈式之彈性訓練(4)---Rendezvous 架構和邏輯

[源碼解析] PyTorch 分佈式之彈性訓練(4)---Rendezvous 架構和邏輯 目錄[源碼解析] PyTorch 分佈式之彈性訓練(4)---Rendezvous 架構和邏輯0x00 摘要0x01 總體背景0x02 基本概念2.

原创 [源碼解析] PyTorch 分佈式之彈性訓練(3)---代理

[源碼解析] PyTorch 分佈式之彈性訓練(3)---代理 目錄[源碼解析] PyTorch 分佈式之彈性訓練(3)---代理0x00 摘要0x01 總體背景1.1 功能分離1.2 Rendezvous0x02 Agent 總體邏輯2.

原创 [論文翻譯] 分佈式訓練 Parameter sharding 之 ZeRO

[論文翻譯] 分佈式訓練 Parameter sharding 之 ZeRO 目錄[論文翻譯] 分佈式訓練 Parameter sharding 之 ZeRO0x00 摘要0x01 綜述1.1 挑戰1.1.1 顯存效率1.1.2 計算效率1

原创 [源碼解析] PyTorch 分佈式之彈性訓練(2)---啓動&單節點流程

[源碼解析] PyTorch 分佈式之彈性訓練(2)---啓動&單節點流程 目錄[源碼解析] PyTorch 分佈式之彈性訓練(2)---啓動&單節點流程0x00 摘要0x01 重要概念0x02 分佈式運行2.1 方式改變2.1.1 原有方

原创 [源碼解析] PyTorch 分佈式之彈性訓練(1) --- 總體思路

[源碼解析] PyTorch 分佈式之彈性訓練(1) --- 總體思路 目錄[源碼解析] PyTorch 分佈式之彈性訓練(1) --- 總體思路0x00 摘要0x01 痛點0x02 難點0x03 TorchElastic3.1 歷史3.1

原创 [源碼解析] PyTorch 分佈式(18) --- 使用 RPC 的分佈式管道並行

[源碼解析] PyTorch 分佈式(18) --- 使用 RPC 的分佈式管道並行 目錄[源碼解析] PyTorch 分佈式(18) --- 使用 RPC 的分佈式管道並行0x00 摘要0x01 綜述1.1 先決條件1.2 基礎知識0x0

原创 [源碼解析] PyTorch 分佈式(17) --- 結合DDP和分佈式 RPC 框架

[源碼解析] PyTorch 分佈式(17) --- 結合DDP和分佈式 RPC 框架 目錄[源碼解析] PyTorch 分佈式(17) --- 結合DDP和分佈式 RPC 框架0x00 摘要0x00 綜述0x01 啓動0x03 支撐系統3

原创 [源碼解析] PyTorch 分佈式(16) --- 使用異步執行實現批處理 RPC

[源碼解析] PyTorch 分佈式(16) --- 使用異步執行實現批處理 RPC 目錄[源碼解析] PyTorch 分佈式(16) --- 使用異步執行實現批處理 RPC0x00 摘要0x01 前言1.1 先決條件1.2 基礎知識1.3

原创 [源碼解析] PyTorch 分佈式(15) --- 使用分佈式 RPC 框架實現參數服務器

[源碼解析] PyTorch 分佈式(15) --- 使用分佈式 RPC 框架實現參數服務器 目錄[源碼解析] PyTorch 分佈式(15) --- 使用分佈式 RPC 框架實現參數服務器0x00 摘要0x01 綜述0x02 基礎網絡0x

原创 [源碼解析] PyTorch 分佈式(14) --使用 Distributed Autograd 和 Distributed Optimizer

[源碼解析] PyTorch 分佈式(14) --使用 Distributed Autograd 和 Distributed Optimizer 目錄[源碼解析] PyTorch 分佈式(14) --使用 Distributed Autog

原创 [源碼解析] PyTorch分佈式優化器(3)---- 模型並行

[源碼解析] PyTorch分佈式優化器(3)---- 模型並行 目錄[源碼解析] PyTorch分佈式優化器(3)---- 模型並行0x00 摘要0x01 前文回顧0x02 單機模型2.1 基本用法2.2 將模型並行應用到現有模塊2.3

原创 [源碼解析] PyTorch分佈式優化器(2)----數據並行優化器

[源碼解析] PyTorch分佈式優化器(2)----數據並行優化器 目錄[源碼解析] PyTorch分佈式優化器(2)----數據並行優化器0x00 摘要0x01 前文回顧0x02 DP 之中的優化器2.1 流程2.2 使用0x03 DD

原创 [源碼解析] PyTorch分佈式優化器(1)----基石篇

[源碼解析] PyTorch分佈式優化器(1)----基石篇 目錄[源碼解析] PyTorch分佈式優化器(1)----基石篇0x00 摘要0x01 從問題出發1.1 示例1.2 問題點0x01 模型構造1.1 Module1.2 成員變量

原创 [源碼解析] PyTorch 分佈式 Autograd (6) ---- 引擎(下)

[源碼解析] PyTtorch 分佈式 Autograd (6) ---- 引擎(下) 目錄[源碼解析] PyTtorch 分佈式 Autograd (6) ---- 引擎(下)0x00 摘要0x01 回顧0x02 執行GraphTask2