Cloudam雲端,雲上高性能算力平臺助力人工智能

隨着企業上雲和數字化轉型升級的不斷深化,雲計算在人工智能領域的重要作用日漸凸顯,許多人工智能模型訓練都需要高性能計算。CLOUDAM雲端自主研發的雲E算力平臺能夠爲有算力需求的企業和個人用戶提供解決方案及算力服務。我們通過一個人工智能的案例來詳細介紹Cloudam雲端,雲E算力平臺是如何幫助用戶快速完成模型訓練的。

一、雲上高性能算力平臺助力人工智能

 

某人工智能企業從事語音設備相關技術研發,因A輪融資後,隨着規模急劇擴張算力需求也隨之增加,所以企業急求一個靈活、彈性的HPC方案來滿足語音識別相關模型訓練。人工智能的計算和訓練往往會消耗大量計算機時和內存,用戶需要一個能使用大量GPU,能支持多卡任務,且同時要能支持AI常用框架的解決方案,如Notebook、Pytorch、Tensorflow及Kaldi等。

 

針對這個問題,雲E算力平臺SaaS接入,用戶通過瀏覽器直接使用Notebook、Pytorch等即可觸發人工智能訓練任務,操作顯得十分簡單。同時,雲E通過腳本夜間自動上傳脫敏後的訓練數據,這將會自動觸發訓練流程。全自動上傳可以充分利用帶寬,幫助用戶快速高效的上傳文件。此外,Cloudam雲端與客戶簽訂數據安全及保密協議,雲E平臺也會嚴格保障用戶輸入數據及計算結果的安全與私密性,給了用戶完美的安全保障。

 

這一方案獲得的顯著。該部署實現了支持多團隊、多任務並行的模型訓練,單模型最多時使用40張Nvidia V100 GPU,使得訓練週期比在用戶本地縮短了5倍以上,讓人工智能的訓練、研究更加高效。同時能讓客戶將很多研究型的訓練任務放入雲端,通過大規模的並行計算來快速驗證結果,極大的提升了客戶的創新速度,完美助力了企業發展和創新。

人工智能的數據分析與預測往往需要進行大量的高性能計算,大規模的高性能計算則需要消耗大量的計算機時。雲E算力平臺爲人工智能提供的高性能計算一站式解決方案,全面使用閒置資源代替按量資源,將多個雲資源整個成統一的獨享計算資源池,對於現有的雲端異構資源進行合理化管理和分配。

雲端Cloudam通過統一化的整合、管理資源,將現有資源的計算能力最優化。雲E採用自動化數據上傳,充分利用帶寬,讓用戶快速上傳、海量下載數據,提高了傳輸效率。同時,自動化的部署集羣能夠讓同一時間內無需所有機器都打開,除了任務運行時期需要讓雲資源滿負荷外,在數據處理和數據上傳階段只需開啓部分機器,其他準備時間不需要開啓機器。

值得一提的是,任務完成以後會及時下載結果並自動釋放資源,防止資源的浪費。雲E能夠自動監控用戶提交的任務數量和資源需求,動態的開啓、管理所需算力資源,在提升效率的同時有效降低成本。此外,用戶還可以根據自身需求,設置自動化調度集羣規模上下限。若在實際操作中,遇上某個可用區資源暫時短缺的情況,雲E會嘗試從別的區域開啓資源,或者選擇配置相近的實例來補充。

在這個案例中,我們可以看到,雲E算力平臺確實有效的解決了算力需求不夠的問題以及資源管理複雜的問題,爲有高算力需求的企業提供了統一化解決方案。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章