原创 [源碼解析] 深度學習分佈式訓練框架 horovod (19) --- kubeflow MPI-operator

[源碼解析] 深度學習分佈式訓練框架 horovod (19) --- kubeflow MPI-operator 目錄[源碼解析] 深度學習分佈式訓練框架 horovod (19) --- kubeflow MPI-operator0x0

原创 [源碼解析] 深度學習分佈式訓練框架 horovod (18) --- kubeflow tf-operator

[源碼解析] 深度學習分佈式訓練框架 horovod (18) --- kubeflow tf-operator 目錄[源碼解析] 深度學習分佈式訓練框架 horovod (18) --- kubeflow tf-operator0x00

原创 [源碼解析] 深度學習分佈式訓練框架 horovod (17) --- 彈性訓練之容錯

[源碼解析] 深度學習分佈式訓練框架 horovod (17) --- 彈性訓練之容錯 目錄[源碼解析] 深度學習分佈式訓練框架 horovod (17) --- 彈性訓練之容錯0x00 摘要0x01總體思路0x02 拋出異常2.1 示例代

原创 [源碼解析] 深度學習分佈式訓練框架 horovod (16) --- 彈性訓練之Worker生命週期

[源碼解析] 深度學習分佈式訓練框架 horovod (16) --- 彈性訓練之Worker生命週期 目錄[源碼解析] 深度學習分佈式訓練框架 horovod (16) --- 彈性訓練之Worker生命週期0x00 摘要0x01 Wor

原创 [源碼解析] 深度學習分佈式訓練框架 horovod (15) --- 廣播 & 通知

[源碼解析] 深度學習分佈式訓練框架 horovod (15) --- 廣播 & 通知 目錄[源碼解析] 深度學習分佈式訓練框架 horovod (15) --- 廣播 & 通知0x00 摘要0x01 問題1.1 HorovodIntern

原创 [源碼解析] 深度學習分佈式訓練框架 horovod (14) --- 彈性訓練發現節點 & State

[源碼解析] 深度學習分佈式訓練框架 horovod (14) --- 彈性訓練發現節點 & State 目錄[源碼解析] 深度學習分佈式訓練框架 horovod (14) --- 彈性訓練發現節點 & State0x00 摘要0x01 設

原创 [源碼解析] 深度學習分佈式訓練框架 horovod (13) --- 彈性訓練之 Driver

[源碼解析] 深度學習分佈式訓練框架 horovod (13) --- 彈性訓練之 Driver 目錄[源碼解析] 深度學習分佈式訓練框架 horovod (13) --- 彈性訓練之 Driver0x00 摘要0x01 角色1.1 角色設

原创 [源碼解析] 深度學習分佈式訓練框架 horovod (12) --- 彈性訓練總體架構

[源碼解析] 深度學習分佈式訓練框架 horovod (12) --- 彈性訓練總體架構 目錄[源碼解析] 深度學習分佈式訓練框架 horovod (12) --- 彈性訓練總體架構0x00 摘要0x01 總述1.1 問題點1.1 角色1.

原创 [源碼解析] 深度學習分佈式訓練框架 horovod (11) --- on spark --- GLOO 方案

[源碼解析] 深度學習分佈式訓練框架 horovod (11) --- on spark --- GLOO 方案 目錄[源碼解析] 深度學習分佈式訓練框架 horovod (11) --- on spark --- GLOO 方案0x00

原创 [源碼解析] 深度學習分佈式訓練框架 horovod (10) --- run on spark

[源碼解析] 深度學習分佈式訓練框架 horovod (10) --- run on spark 目錄[源碼解析] 深度學習分佈式訓練框架 horovod (10) --- run on spark0x00 摘要0x01 回顧1.1 總體序

原创 [源碼解析] 深度學習分佈式訓練框架 horovod (9) --- 啓動 on spark

[源碼解析] 深度學習分佈式訓練框架 horovod (9) --- 啓動 on spark 目錄[源碼解析] 深度學習分佈式訓練框架 horovod (9) --- 啓動 on spark0x00 摘要0x01 總體架構圖0x02 第一階

原创 [源碼解析] 深度學習分佈式訓練框架 horovod (8) --- on spark

[源碼解析] 深度學習分佈式訓練框架 horovod (8) --- on spark 目錄[源碼解析] 深度學習分佈式訓練框架 horovod (8) --- on spark0x00 摘要0x01 Spark相關知識1.1 爲什麼整合

原创 [源碼解析] 深度學習分佈式訓練框架 horovod (7) --- DistributedOptimizer

[源碼解析] 深度學習分佈式訓練框架 horovod (7) --- DistributedOptimizer 目錄[源碼解析] 深度學習分佈式訓練框架 horovod (7) --- DistributedOptimizer0x00 摘要

原创 [源碼解析] 深度學習分佈式訓練框架 horovod (6) --- 後臺線程架構

[源碼解析] 深度學習分佈式訓練框架 horovod (6) --- 後臺線程架構 目錄[源碼解析] 深度學習分佈式訓練框架 horovod (6) --- 後臺線程架構0x00 摘要0x01 引子0x02 設計要點2.1 問題2.2 方案

原创 [源碼解析] 深度學習分佈式訓練框架 horovod (5) --- 融合框架

[源碼解析] 深度學習分佈式訓練框架 horovod (5) --- 融合框架 目錄[源碼解析] 深度學習分佈式訓練框架 horovod (5) --- 融合框架0x00 摘要0x01 架構圖0x02 統一層0x03 Horovod OP