突破TensorFlow並行瓶頸的開源框架到底是啥？｜InfoQ 大咖說

原創

2021-09-24 10:53

隨着摩爾定律的失效，單個計算單元的能力已經遠遠無法滿足數據的指數級增長。比如，快手每天上傳的新視頻超過千萬條，即便訓練簡單的分類模型（比如 ResNet），使用單機單卡的算力，訓練快手日內新增視頻都需要超過一百天的時間。因此，在數據爆炸性增長的互聯網行業，多機多卡的並行訓練成爲了大數據時代的必然。隨着深度學習模型功能的日益強大，分佈式訓練任務的通信成本和所需算力也隨之急劇增長。

然而，由於多機多卡並行帶來的額外通訊成本，加速比（speedup）經常讓大家失望，從而形成了大廠“堆資源”，沒資源的“乾瞪眼”的局面。比如，Google 的 Downpour 框架 [1] 使用 80 個 GPU 訓練 ImageNet，加速比卻只有 12/80=15%。因此如何提升多機多卡中訓練的通訊效率成爲了並行訓練乃至解決數據爆炸性增長的核心問題之一。

項目 GitHub 地址：https://github.com/BaguaSys/bagua

現有的深度學習開源框架（PyTorch，TensorFlow）主要針對系統層面優化，把已有的單機單卡優化算法擴展到多機多卡的場景。雖然系統層面的優化使得並行效率不斷提升，但是邊際效益卻越來越明顯。針對這個問題，快手和蘇黎世理工（ETH Zürich）聯合開發了一款名爲“Bagua”的分佈式訓練框架。

本期，快手Senior Staff Research Scientist 廉相如現身大咖說，與我們分享Bagua的核心技術思路。

直播大綱：

1.分佈式訓練框架當前面臨的問題

2.Bagua在性能和通訊層面所做的優化

3.開發者如何抉擇合適的框架

4.深度學習未來的發展方向是什麼？

講師介紹：

廉相如，快手 Senior Staff Research Scientist。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

突破TensorFlow並行瓶頸的開源框架到底是啥？｜InfoQ 大咖說

爲什麼要⽤ Foundry

【筆記】動手學深度學習-預備知識

py發送email

MySQL 分庫分表方案，總結太全了。。

Qt/C++音視頻開發71-指定mjpeg/h264格式採集本地攝像頭/存儲文件到mp4/設備推流/採集推流

WPF開源輕便、快速的桌面啓動器

公司來了個新同事，把 DDD 運用得爐火純青！

2021雲智技術論壇-知識智能化專場

智慧家庭場景的推薦系統的發展歷程和方向 | InfoQ《公開課》

中國卓越技術團隊訪談錄（2021年第六季）

共話“勒索軟件”應對之道——能源篇

共話“勒索軟件”應對之道——電子政務篇

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結