基於 Kubernetes 的跨雲 AI 訓練平臺構建與展望

基於 Kubernetes 的跨雲 AI 訓練平臺構建與展望 | ArchSummit

問題背景：隨着深度學習技術的蓬勃發展，在無人駕駛領域取得了舉足輕重的進展，衆多算法研發人員爲深度學習的技術提供了最基礎的保證，但是隨着算力的不斷進步與演進，亟需一套簡單易用的線下算法訓練實驗平臺供算法研發人員使用。

解決方案：爲了能夠解決線下訓練中遇到的使用問題，我們基於 Kubernetes 研發了一套高度可擴展的跨雲 AI 訓練方案，使用戶可以自由的在各個機房使用不同的硬件訓練。由於 Kubernetes Federation 技術還沒有特別成熟，以及我們的場景並不需要跨 region 的部署方式，因此簡單化處理了。後面會關注 Federation V2 項目。

方案介紹：我們開發了caffe2-operator，批量調度算法，RDMA device plugin 以及 CSI 插件，爲多個集羣異構硬件提供統一的管控以及差異化使用。

實施後效果：減少了用戶數據同步；大大提升了硬件利用率；監控管理以及自動化程度更加強大。

演講提綱：

闡述 AI 算法研發的大致過程
在算法研發中訓練的意義以及相關技術點
實際工作中現有訓練使用的問題以及難點
基於 Kubernetes 的跨雲 AI 訓練平臺的架構
Caffe2-Operator
調度算法（批量調度、搶佔、優先級）
RDMA device plugin
CSI 插件

聽衆受益點：

瞭解現有 AI 算法研發的完整路徑
跨雲Kubernetes的技術方案
Kubernetes與AI場景結合需要的定製化經驗
爲了達到訓練最高性能我們做的工作

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

基於 Kubernetes 的跨雲 AI 訓練平臺構建與展望 | ArchSummit

演講提綱：

聽衆受益點：

AI模型 Llama 3體驗筆記

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

混合集成 PlatformViews 解析及應用

DDD戰略建模在重構業務系統中的實踐 | ArchSummit

跨文化的技術管理 | ArchSummit

釘釘企業級前端應用的最佳實踐 | ArchSummit

基於 Kubernetes 的跨雲 AI 訓練平臺構建與展望 | ArchSummit

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結