K8s 爲 AI 應用提供大規模 GPU 算力之實踐 | QCon

華爲雲 CCI 服務管理數百個 GPU 卡,爲華爲雲 EI 服務及外部客戶提供 AI 計算平臺,在該過程中積累了大量面向 AI 計算的優化經驗。AI 計算加速的關鍵是 GPU 管理,K8S 資源調度優化,面向 AI 計算框架和模型的 Job/Task 調度。通過這些優化手段可以使得 128 塊 GPU 卡的線性加速比達到 0.8+。本次議題將介紹如何通過開源項目 K8S + Kata 容器搭建 AI 計算平臺,更大化 GPU 及 AI 芯片算力的使用效率,並給出測試結果。最後我們也會對未來的技術改進做出展望。

聽衆受益

瞭解基於 K8S 的 AI 框架的現狀;
瞭解大規模 GPU 在 AI 分佈式訓練場景下的應用;
瞭解 K8S 在人工智能場景下的優化思路。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章