阿里云何萬青:南坡VS北坡,阿里雲高性能計算行業實踐

簡介:北坡模式:藉助於雲上大計算性能突破來提供HPC服務,切入的重點更加聚焦於雲服務。

隨着數字化轉型的深入,行業應用對算力提出更高要求。爲滿足不同行業靈活的業務形態與計算需求,以雲計算技術爲服務模式創新的技術手段,以高性能計算服務爲核心的高性能計算雲(HPC Cloud)受到業界的廣泛關注。

爲了進一步凝聚產業共識,推進高性能計算雲產業發展,2021年12月21日,計算網融合產業及標準推進委員會聯合超級計算創新聯盟,召開首屆高性能計算雲(HPC Cloud)產業發展論壇,邀請了學術界與產業界專家,以 “雲化超算,智啓未來”爲主題,從技術研究、應用部署、實踐發展等多個方面進行精彩演講。

在本次論壇上,來自阿里雲的高性能計算負責人何萬青發表了《南坡VS北坡,阿里雲高性能計算HPC-as-a-Service行業實踐》的主題演講。

01 阿里雲高性能計算的發展

超算通過互聯網的方式去部署和交付已經成爲趨勢。何萬青表示阿里雲的高性能計算已經發展了四到五年,目前部署在很多工業和行業計算的相關垂直業務,比如汽車仿真、影視後期渲染、AI生物製藥、氣象業務等領域。

基於過去十多年在線下HPC的技術觀察,談到傳統超算系統轉型高性能計算雲的趨勢,何萬青將線下超算轉型雲服務和雲服務提供高性能計算產品和服務兩種模式,比喻爲從南坡和北坡不同線路攀登HPC-as-a-Service頂峯。在北坡,雲公司藉助於雲上大計算性能突破來提供HPC服務,切入的重點更加聚焦於雲服務:單機SLA和大規模穩定性、快捷、彈性、多種雲產品和服務的快速組合及SaaS服務,超越以提供“核時”和“算力”爲核心的模式,強調整體科研業務上雲。

2020年是高性能計算在穩定性、彈性以及計費敏感性方向發展最快的一年,很多重大任務在阿里雲已經可以大規模的部署,阿里雲在去IOE的過程中,可以使超70%硬件故障無感消除,在公共雲大計算產品端,雲超算SCC第七代實例規格全新上線。

在神龍計算平臺上,它的優勢包括虛擬化網絡高效卸載,物理網絡、存儲和計算完全解耦,避免資源爭搶。神龍eRDMA功能2021年也正式上線,實現CPU實例和GPU實例並池和混合部署,極大擴展CPU和GPU實例集羣範圍。從POD擴展到可用區、數據中心,平臺支持更大規模的彈性伸縮,同時支持VPC網絡、eRDMA網絡、存儲網絡三網合一。在數值天氣預報中,eRDMA會極大提升應用規模和並行效率。

02 阿里雲高性能計算Cloud Stack

何萬青表示,基於以上的底層架構,阿里雲高性能計算統稱爲“神龍雲超算”,在其上部署面向公共雲和混合雲的E-HPC雲軟件棧,它是基於神龍服務器+RDMA網絡+並行文件系統開發的PssS層服務。其中,調度器和彈性伸縮、熱遷移等功可以從底層對客戶透明實現。在ISV層,服務是通過工作流的方式提供,數據搬移不僅是物理方式,而是通過高速網絡,一次性的上載來完成任務交付。在跨數據中心的計算集羣上,完成三網合一,現有調度器完全實現對跨可用區計算節點的調度,將不同的任務分配給不同的實例。在不同的隊列調度上方面,全球只有阿里雲能夠在運行過程中實現隊列綁定不同的實例。

03阿里雲高性能計算應用方案

何萬青介紹了將搶佔式實例與斷點續算結合,用戶只需要花費比傳統方式很少的成本,便可以按需得到所需資源。在混合雲技術方面,通過混合雲異步文件存儲的方式,可以實現在線上、線下同時進行數據拉取與計算,在影視渲染場景中,已經得到廣泛使用。

E-HPC商業License方案中,可通過阿里雲高速通道打通雲上雲下網絡。其中,E-HPC自動部署雲上計算資源,併爲其配置好License服務或License代理節點,雲下License服務器通過VPN連接License代理節點,E-HPC服務負責License Manager部署、License發放和使用監控。

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章