原创 [源碼解析] 模型並行分佈式訓練 Megatron (3) ---模型並行實現

[源碼解析] 模型並行分佈式訓練 Megatron (3) ---模型並行實現 目錄[源碼解析] 模型並行分佈式訓練 Megatron (3) ---模型並行實現0x00 摘要0x01 並行Transformer層1.1 初始化1.2 前向

原创 [源碼解析] 模型並行分佈式訓練Megatron (2) --- 整體架構

目錄 [源碼解析] 模型並行分佈式訓練Megatron (2) --- 整體架構 0x00 摘要 0x01 啓動 1.1 分佈式啓動 1.2 構造基礎 0x02 Pretrain 0x03 初始化 3.1 initialize_me

原创 [源碼解析] 模型並行分佈式訓練Megatron (1) --- 論文 & 基礎

[源碼解析] 模型並行分佈式訓練Megatron (1) --- 論文 & 基礎 目錄[源碼解析] 模型並行分佈式訓練Megatron (1) --- 論文 & 基礎0x00 摘要0x01 Introduction1.1 問題1.2 數據並

原创 [源碼分析] Facebook如何訓練超大模型--- (5)

[源碼分析] Facebook如何訓練超大模型--- (5) 目錄[源碼分析] Facebook如何訓練超大模型--- (5)0x00 摘要0x01 背景0x02 思路2.1 學習建議2.2 具體思路2.3 最佳實踐0x03 具體實現3.1

原创 [源碼分析] Facebook如何訓練超大模型---(4)

[源碼分析] Facebook如何訓練超大模型 --- (4) 目錄[源碼分析] Facebook如何訓練超大模型 --- (4)0x00 摘要0x01 背景知識1.1 單精度、雙精度和半精度浮點格式的區別1.2 多精度和混合精度計算的區別

原创 [源碼分析] Facebook如何訓練超大模型 --- (3)

[源碼分析] Facebook如何訓練超大模型 --- (3) 目錄[源碼分析] Facebook如何訓練超大模型 --- (3)0x00 摘要0x01 ZeRO-Offload1.1 設計原則1.2 ZeRO0x02 卸載策略2.1 數據

原创 [源碼分析] Facebook如何訓練超大模型 --- (2)

[源碼分析] Facebook如何訓練超大模型 --- (2) 目錄[源碼分析] Facebook如何訓練超大模型 --- (2)0x00 摘要0x01 回顧1.1 ZeRO1.1.1 ZeRO-11.1.2 ZeRO-21.1.3 ZeR

原创 [源碼分析] Facebook如何訓練超大模型---(1)

[源碼分析] Facebook如何訓練超大模型---(1) 目錄[源碼分析] Facebook如何訓練超大模型---(1)0x00 摘要0x01 簡介1.1 FAIR & FSDP1.2 大規模訓練計算能力需求0x02 FSDP 如何工作2

原创 [論文翻譯] 分佈式訓練 Parameter Sharding 之 Google Weight Sharding

[論文翻譯] 分佈式訓練 Parameter sharding 之 Google Weight Sharding 目錄[論文翻譯] 分佈式訓練 Parameter sharding 之 Google Weight Sharding0x00

原创 [源碼解析] PyTorch 分佈式之彈性訓練(6)---監控/容錯

[源碼解析] PyTorch 分佈式之彈性訓練(6)---監控/容錯 目錄[源碼解析] PyTorch 分佈式之彈性訓練(6)---監控/容錯0x00 摘要0x01 總體邏輯1.1 Node集羣角度1.2 Agent總體邏輯圖1.3 監控角

原创 [源碼解析] PyTorch 分佈式之彈性訓練(5)---Rendezvous 引擎

[源碼解析] PyTorch 分佈式之彈性訓練(5)---Rendezvous 引擎 目錄[源碼解析] PyTorch 分佈式之彈性訓練(5)---Rendezvous 引擎0x00 摘要0x01 前言1.1 總體系統1.2 Rendezv

原创 [源碼解析] 快手八卦 --- 機器學習分佈式訓練新思路(2)

[源碼解析] 快手八卦 --- 機器學習分佈式訓練新思路(2) 目錄[源碼解析] 快手八卦 --- 機器學習分佈式訓練新思路(2)0x00 摘要0x01 優化1.1 重疊通信和計算1.2 分桶通信和扁平化1.3 分層化通信0x02 Gene

原创 [源碼解析] 快手八卦 --- 機器學習分佈式訓練新思路(3)

[源碼解析] 快手八卦 --- 機器學習分佈式訓練新思路(3) 目錄[源碼解析] 快手八卦 --- 機器學習分佈式訓練新思路(3)0x00 摘要0x02 去中心化2.1 示例用法2.2 去中心化培訓概述2.3 去中心化訓練算法2.4 Dec

原创 [源碼解析] PyTorch 分佈式之彈性訓練(7)---節點變化

[源碼解析] PyTorch 分佈式之彈性訓練(7)---節點變化 目錄[源碼解析] PyTorch 分佈式之彈性訓練(7)---節點變化0x00 摘要0x01 變化方式1.1 Scale-down1.2 Scale-up0x02 節點加入

原创 [源碼解析] 快手八卦 --- 機器學習分佈式訓練新思路(1)

[源碼解析] 快手八卦 --- 機器學習分佈式訓練新思路(1) 目錄[源碼解析] 快手八卦 --- 機器學習分佈式訓練新思路(1)0x00 摘要0x01 設計思路1.1 如何通信1.2 通信模式分類1.2.1 系統架構1.2.2 同步角度1