基於 Kubernetes 的跨雲 AI 訓練平臺構建與展望 | ArchSummit

問題背景:隨着深度學習技術的蓬勃發展,在無人駕駛領域取得了舉足輕重的進展,衆多算法研發人員爲深度學習的技術提供了最基礎的保證,但是隨着算力的不斷進步與演進,亟需一套簡單易用的線下算法訓練實驗平臺供算法研發人員使用。

解決方案:爲了能夠解決線下訓練中遇到的使用問題,我們基於 Kubernetes 研發了一套高度可擴展的跨雲 AI 訓練方案,使用戶可以自由的在各個機房使用不同的硬件訓練。由於 Kubernetes Federation 技術還沒有特別成熟,以及我們的場景並不需要跨 region 的部署方式,因此簡單化處理了。後面會關注 Federation V2 項目。

方案介紹:我們開發了caffe2-operator,批量調度算法,RDMA device plugin 以及 CSI 插件,爲多個集羣異構硬件提供統一的管控以及差異化使用。

實施後效果:減少了用戶數據同步;大大提升了硬件利用率;監控管理以及自動化程度更加強大。

演講提綱:

闡述 AI 算法研發的大致過程
在算法研發中訓練的意義以及相關技術點
實際工作中現有訓練使用的問題以及難點
基於 Kubernetes 的跨雲 AI 訓練平臺的架構
Caffe2-Operator
調度算法(批量調度、搶佔、優先級)
RDMA device plugin
CSI 插件

聽衆受益點:

瞭解現有 AI 算法研發的完整路徑
跨雲Kubernetes的技術方案
Kubernetes與AI場景結合需要的定製化經驗
爲了達到訓練最高性能我們做的工作

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章