近年來,人工智能技術的快速發展對高效率智能計算系統的需求越來越大。
在58同城平臺內部,越來越多的服務使用深度學習模型和技術來驅動,這些工作負載具有一些典型的特性,例如:在線推理服務請求的“高峯低谷”現象,導致部分時段系統資源利用率偏低;離線訓練集羣則存在部門之間資源爭搶、分配不公等問題,導致GPU集羣吞吐量下降。購置和維護GPU加速設備帶來了昂貴的開銷,如何改善AI計算平臺的資源使用效率成爲了亟需解決的問題。
11月03日,由58同城AI Lab & 天津大學智能與計算學部聯合主辦的技術交流會,將從高效的集羣資源調度和細粒度的在線離線作業混部兩個方面進行深入技術交流,探討如何利用現有的技術手段,優化深度學習推理服務和訓練作業性能,提高AI平臺的資源使用效率。
日程介紹
議題分析&聽衆收益
深度學習平臺離線訓練作業資源調度優化
新技術/實用技術點:
1、離線訓練任務優先級調度。
2、離線訓練任務資源使用率預估及調整。
聽衆收益:
瞭解通過優先級調度、任務資源使率預估、異構GPU調度等策略優化離線訓練任務資源調度,提升資源利用率。
基於任務可預測性的高吞吐分佈式訓練集羣資源調度
新技術/實用技術點:
1、可預測任務的動態資源調度策略
2、混合任務下的統一優先級調度
聽衆收益:
1、瞭解作業可預測性定義和分類
2、瞭解異構資源下的動態資源調度策略
3、瞭解基於任務優先級的統一調度策略
深度學習平臺在線推理服務和離線訓練作業混部
新技術/實用技術點::
1、推理服務自動彈性伸縮策略。
2、離在線混部下資源動態調度。
聽衆收益:
1、瞭解模型推理服務自動彈性伸縮方案。
2、瞭解離線作業和在線服務資源混部實現。
分佈式微服務場景下的灰度干擾研究和應用混部
新技術/實用技術點:
1、基於時空編碼的服務性能及干擾預測。
2、基於微服務組件級可區分的細粒度應用混部。
聽衆收益:
瞭解雲服務場景下的“灰度干擾”現象,同時針對局部干擾進行細粒度的資源管理和應用混部,提升系統效率。