基于 Kubernetes 的跨云 AI 训练平台构建与展望

基于 Kubernetes 的跨云 AI 训练平台构建与展望 | ArchSummit

问题背景：随着深度学习技术的蓬勃发展，在无人驾驶领域取得了举足轻重的进展，众多算法研发人员为深度学习的技术提供了最基础的保证，但是随着算力的不断进步与演进，亟需一套简单易用的线下算法训练实验平台供算法研发人员使用。

解决方案：为了能够解决线下训练中遇到的使用问题，我们基于 Kubernetes 研发了一套高度可扩展的跨云 AI 训练方案，使用户可以自由的在各个机房使用不同的硬件训练。由于 Kubernetes Federation 技术还没有特别成熟，以及我们的场景并不需要跨 region 的部署方式，因此简单化处理了。后面会关注 Federation V2 项目。

方案介绍：我们开发了caffe2-operator，批量调度算法，RDMA device plugin 以及 CSI 插件，为多个集群异构硬件提供统一的管控以及差异化使用。

实施后效果：减少了用户数据同步；大大提升了硬件利用率；监控管理以及自动化程度更加强大。

演讲提纲：

阐述 AI 算法研发的大致过程
在算法研发中训练的意义以及相关技术点
实际工作中现有训练使用的问题以及难点
基于 Kubernetes 的跨云 AI 训练平台的架构
Caffe2-Operator
调度算法（批量调度、抢占、优先级）
RDMA device plugin
CSI 插件

听众受益点：

了解现有 AI 算法研发的完整路径
跨云Kubernetes的技术方案
Kubernetes与AI场景结合需要的定制化经验
为了达到训练最高性能我们做的工作

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

基于 Kubernetes 的跨云 AI 训练平台构建与展望 | ArchSummit

演讲提纲：

听众受益点：

诈骗（杀猪盘）网站进行渗透测试

Python 潮流周刊#50：我最喜欢的 Python 3.13 新特性！

外行也能读懂的网络硬件设备功能原理速成

混合集成 PlatformViews 解析及應用

DDD戰略建模在重構業務系統中的實踐 | ArchSummit

跨文化的技術管理 | ArchSummit

釘釘企業級前端應用的最佳實踐 | ArchSummit

基於 Kubernetes 的跨雲 AI 訓練平臺構建與展望 | ArchSummit

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結