vivo AI 計算平臺的K8s填坑指南

背景

在2018年底,vivo AI 研究院爲了解決統一的高性能訓練環境、大規模的分佈式訓練、計算資源的高效利用調度等痛點,着手建設AI計算平臺。白駒過隙,將近兩年時間過去了,平臺的建設和落地取得了很大的進展,成爲了vivo AI領域的核心基礎平臺。平臺現在已經有超過500多個用戶,來自人工智能、影像、互聯網等多個部門。平臺的容器集羣有1000多臺服務器,擁有50000多CPU核,1000多張GPU卡,GPU算力將近100 PFLOPS。每天運行1000多個的算法訓練任務,部署了100多個的模型推理服務和AI應用。這些訓練任務和應用都是以容器的方式運行。平臺從當初服務深度學習訓練爲主,到現在演進成包含VTraining、VServing、VContainer三大模塊,對外提供模型訓練、模型推理和容器化的能力。

計算平臺的底座是VContainer,是基於Kubernetes構建的容器平臺,對上提供了容器運行、資源調度等能力。Kubernetes是平臺最基礎最重要的組件,其穩定性對平臺至關重要。本文是vivo AI計算平臺技術演進系列文章之一,着重分享了平臺在Kubernetes上遇到的疑難雜症和解決方法。

原文鏈接:【https://www.infoq.cn/article/2LCOXVLD0WxDN4itXj35】。未經作者許可,禁止轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章