原创 [源碼分析] Facebook如何訓練超大模型---(1)

[源碼分析] Facebook如何訓練超大模型---(1) 目錄[源碼分析] Facebook如何訓練超大模型---(1)0x00 摘要0x01 簡介1.1 FAIR & FSDP1.2 大規模訓練計算能力需求0x02 FSDP 如何工作2

原创 [論文翻譯] 分佈式訓練 Parameter Sharding 之 Google Weight Sharding

[論文翻譯] 分佈式訓練 Parameter sharding 之 Google Weight Sharding 目錄[論文翻譯] 分佈式訓練 Parameter sharding 之 Google Weight Sharding0x00

原创 [源碼解析] PyTorch 分佈式之彈性訓練(6)---監控/容錯

[源碼解析] PyTorch 分佈式之彈性訓練(6)---監控/容錯 目錄[源碼解析] PyTorch 分佈式之彈性訓練(6)---監控/容錯0x00 摘要0x01 總體邏輯1.1 Node集羣角度1.2 Agent總體邏輯圖1.3 監控角

原创 [源碼解析] PyTorch 分佈式之彈性訓練(5)---Rendezvous 引擎

[源碼解析] PyTorch 分佈式之彈性訓練(5)---Rendezvous 引擎 目錄[源碼解析] PyTorch 分佈式之彈性訓練(5)---Rendezvous 引擎0x00 摘要0x01 前言1.1 總體系統1.2 Rendezv

原创 [源碼解析] 快手八卦 --- 機器學習分佈式訓練新思路(2)

[源碼解析] 快手八卦 --- 機器學習分佈式訓練新思路(2) 目錄[源碼解析] 快手八卦 --- 機器學習分佈式訓練新思路(2)0x00 摘要0x01 優化1.1 重疊通信和計算1.2 分桶通信和扁平化1.3 分層化通信0x02 Gene

原创 [源碼解析] 快手八卦 --- 機器學習分佈式訓練新思路(3)

[源碼解析] 快手八卦 --- 機器學習分佈式訓練新思路(3) 目錄[源碼解析] 快手八卦 --- 機器學習分佈式訓練新思路(3)0x00 摘要0x02 去中心化2.1 示例用法2.2 去中心化培訓概述2.3 去中心化訓練算法2.4 Dec

原创 [源碼解析] PyTorch 分佈式之彈性訓練(7)---節點變化

[源碼解析] PyTorch 分佈式之彈性訓練(7)---節點變化 目錄[源碼解析] PyTorch 分佈式之彈性訓練(7)---節點變化0x00 摘要0x01 變化方式1.1 Scale-down1.2 Scale-up0x02 節點加入

原创 [源碼解析] 快手八卦 --- 機器學習分佈式訓練新思路(1)

[源碼解析] 快手八卦 --- 機器學習分佈式訓練新思路(1) 目錄[源碼解析] 快手八卦 --- 機器學習分佈式訓練新思路(1)0x00 摘要0x01 設計思路1.1 如何通信1.2 通信模式分類1.2.1 系統架構1.2.2 同步角度1

原创 [源碼解析] PyTorch 分佈式之 ZeroRedundancyOptimizer

[源碼解析] PyTorch 分佈式之 ZeroRedundancyOptimizer 目錄[源碼解析] PyTorch 分佈式之 ZeroRedundancyOptimizer0x00 摘要0x01 歷史1.1 Github說明1.2 解

原创 [源碼解析] PyTorch 分佈式之彈性訓練(4)---Rendezvous 架構和邏輯

[源碼解析] PyTorch 分佈式之彈性訓練(4)---Rendezvous 架構和邏輯 目錄[源碼解析] PyTorch 分佈式之彈性訓練(4)---Rendezvous 架構和邏輯0x00 摘要0x01 總體背景0x02 基本概念2.

原创 [源碼解析] PyTorch 分佈式之彈性訓練(3)---代理

[源碼解析] PyTorch 分佈式之彈性訓練(3)---代理 目錄[源碼解析] PyTorch 分佈式之彈性訓練(3)---代理0x00 摘要0x01 總體背景1.1 功能分離1.2 Rendezvous0x02 Agent 總體邏輯2.

原创 [論文翻譯] 分佈式訓練 Parameter sharding 之 ZeRO

[論文翻譯] 分佈式訓練 Parameter sharding 之 ZeRO 目錄[論文翻譯] 分佈式訓練 Parameter sharding 之 ZeRO0x00 摘要0x01 綜述1.1 挑戰1.1.1 顯存效率1.1.2 計算效率1

原创 [源碼解析] PyTorch 分佈式之彈性訓練(2)---啓動&單節點流程

[源碼解析] PyTorch 分佈式之彈性訓練(2)---啓動&單節點流程 目錄[源碼解析] PyTorch 分佈式之彈性訓練(2)---啓動&單節點流程0x00 摘要0x01 重要概念0x02 分佈式運行2.1 方式改變2.1.1 原有方

原创 [源碼解析] PyTorch 分佈式之彈性訓練(1) --- 總體思路

[源碼解析] PyTorch 分佈式之彈性訓練(1) --- 總體思路 目錄[源碼解析] PyTorch 分佈式之彈性訓練(1) --- 總體思路0x00 摘要0x01 痛點0x02 難點0x03 TorchElastic3.1 歷史3.1

原创 [源碼解析] PyTorch 分佈式(18) --- 使用 RPC 的分佈式管道並行

[源碼解析] PyTorch 分佈式(18) --- 使用 RPC 的分佈式管道並行 目錄[源碼解析] PyTorch 分佈式(18) --- 使用 RPC 的分佈式管道並行0x00 摘要0x01 綜述1.1 先決條件1.2 基礎知識0x0