突破TensorFlow並行瓶頸的開源框架到底是啥?|InfoQ 大咖說

隨着摩爾定律的失效,單個計算單元的能力已經遠遠無法滿足數據的指數級增長。比如,快手每天上傳的新視頻超過千萬條,即便訓練簡單的分類模型(比如 ResNet),使用單機單卡的算力,訓練快手日內新增視頻都需要超過一百天的時間。因此,在數據爆炸性增長的互聯網行業,多機多卡的並行訓練成爲了大數據時代的必然。隨着深度學習模型功能的日益強大,分佈式訓練任務的通信成本和所需算力也隨之急劇增長。

然而,由於多機多卡並行帶來的額外通訊成本,加速比(speedup)經常讓大家失望,從而形成了大廠“堆資源”,沒資源的“乾瞪眼”的局面比如,Google 的 Downpour 框架 [1] 使用 80 個 GPU 訓練 ImageNet,加速比卻只有 12/80=15%。因此如何提升多機多卡中訓練的通訊效率成爲了並行訓練乃至解決數據爆炸性增長的核心問題之一。

項目 GitHub 地址https://github.com/BaguaSys/bagua

現有的深度學習開源框架(PyTorch,TensorFlow)主要針對系統層面優化,把已有的單機單卡優化算法擴展到多機多卡的場景。雖然系統層面的優化使得並行效率不斷提升,但是邊際效益卻越來越明顯。針對這個問題,快手和蘇黎世理工(ETH Zürich)聯合開發了一款名爲“Bagua”的分佈式訓練框架。

本期,快手Senior Staff Research Scientist 廉相如現身大咖說,與我們分享Bagua的核心技術思路。

直播大綱:

1.分佈式訓練框架當前面臨的問題

2.Bagua在性能和通訊層面所做的優化

3.開發者如何抉擇合適的框架

4.深度學習未來的發展方向是什麼?

講師介紹:

廉相如,快手 Senior Staff Research Scientist。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章