雙殺之後迎來雙爆發,高性能計算HPC上雲之勢不可擋

本文重點:

傳統的HPC應用的特殊性與昂貴硬件和大量基礎設施投入,成爲高性能計算擁抱新技術、新平臺的兩大障礙。

隨着通用計算市場逐漸飽和,刺激各大雲提供商的持續投入,終於讓高性能計算上雲不再只是少數傳統玩家的專利。

數據量和業務類型的雙爆發使傳統的高性能計算集羣,比如超級計算中心的模式,已經很難跟上業務增長的步伐。

雲端高性能計算(Cloud HPC),顧名思義,就是在雲計算平臺上運行高性能計算的分析任務

這個名詞,包括其近義詞:高性能計算雲(HPC Cloud),何時開始使用並沒有一個公認的說法。時至今日,在維基百科(英文)網站上也沒有這麼一個詞條。稍微扯得上一點關係的是高性能計算 / 超級計算機詞條下的一個小節:雲中的高性能計算(HPC in the Cloud)

然而從去年到今年,我們真真切切地感受到了這個詞要火起來的節奏。

作爲標誌性的事件,我們看到了這個行業的第一份市場分析研究報告:來自Market Research Future的《CloudHPC市場研究報告——及2023年預測》。

讓我們一起來回顧一下Cloud HPC的發展歷程,面臨的挑戰以及未來發展趨勢。

                                                   雲端高性能計算市場(來源:Market Research Future)

 

傳統高性能計算:專用硬件/軟件庫

高性能計算是計算機科學領域發展的一個特殊分支,不同於我們平常接觸的通用計算。

傳統上,高性能計算主要應用於大規模科學計算,例如天氣預報、石油勘探、汽車碰撞模擬、藥物研發等這些任務通常是通過超級計算機,或者大規模計算集羣運行,通過集羣內的各節點協同工作完成的。一個分析任務被分解爲一系列的子任務,分佈到不同的節點上運行。子任務之間經常是緊耦合的,即需要緊密合作完成分析。

因此傳統的高性能計算集羣通常需要很多特殊的硬件來加速節點間通:高帶寬、低延時、低CPU佔用率的等等。其中代表性的技術就是Infiniband和RDMA,而不是我們通常所見的以太網。

此外,爲了將集羣資源抽象爲一個統一的資源池,從而實現高效的並行計算,大多數的高性能計算應用需要使用統一的開發庫,其中最流行的解決方案就是消息傳遞接口(MPI)。所有的進程都必須通過開發庫提供的接口進行相互通訊和數據交換。

另外,通常也需要專爲高性能計算優化的存儲,比如Lustre,在此就不展開了。

傳統的HPC應用的併發擴展性與算法設計緊密相關,因而通常並不能線性擴展。

這些特殊性後期實際上成爲了一把雙刃劍,一定程度上成爲高性能計算擁抱新技術、新平臺的障礙。

                                                 高性能計算涉及領域(來源:ICHEC)

 

雲計算崛起:成功?障礙?

早在十餘年前,雲計算剛剛起步,虛擬化大行其道的時候,就開始有熱烈的討論,是否要將虛擬化的浪潮引入高性能計算領域。當時第一個大的顧慮,就是虛擬化帶來的性能損失,包括計算性能損耗和額外的網絡延時等等

此外,前文提到的許多特殊硬件,也沒有好的虛擬化 / 多租戶方案。

最終結果:第一波衝擊,生不逢時,波瀾不驚。

等到以亞馬遜(AWS)爲代表的雲計算崛起,通用雲計算市場成爲市場的寵兒,獲得了快速發展。用戶開始習慣在雲計算平臺上部署 / 運行各種不同類型的業務。

然而多年來通用計算業務的高速增長,一定程度上卻妨礙了高性能計算在雲端的佈局。

爲什麼?

當通用計算市場需求快速增長的時候,雲提供商們會滿足於當前的業務,也就是所謂的“容易摘的果子”(low-hanging fruit)。像高性能計算這種需要昂貴硬件和大量基礎設施投入的新型業務,自然就沒有理由得到重視。

因此長期以來,雲計算平臺上運行的多是服務型應用;包括後來容器技術和Kubernetes的流行,也是主要服務於這一類型應用的。

計算密集型的用戶們只能靜待時機。

契機:通用雲計算市場成熟

這兩年來,隨着雲計算技術逐漸成熟,市場開始慢慢飽和。不管是國際還是國內市場,都已經出現了幾家大廠瓜分大部分市場的情況。

通用雲計算風光不再,新興的增長點自然而然就會得到大家的青睞了;高性能計算上雲終於到了瓜熟蒂落的時候。隨着各大雲提供商的持續投入,高性能計算不只是少數傳統玩家的專利,而是作爲一項新型服務(HPC-as-a-service)向普通用戶開放

更多的新用戶也能夠利用高性能計算技術 / 平臺拓展新的業務,或者重構現有的計算應用,同時享受雲端的擴展性等福利。

                                                          微軟Azure上HPC技術支持的發展歷程(來源:Azure)

 

動力:數據量和業務類型的雙爆發

一方面,傳統的高性能計算應用仍在,然而要處理的數據量已今非昔比

隨着數據採集設備的成本下降,以及存儲成本的白菜價趨勢,近些年來數據量的增產實際上是爆發式的。傳統的高性能計算集羣,比如超級計算中心的模式,已經很難跟上業務增長的步伐。

另一方面,更爲重要的是,各種新型業務開始出現,大大拓展了高性能計算的業務範疇。

其中就包括大家熟悉的,正在風口上的人工智能(AI)和機器學習(ML)。還有基於人體全基因分析的精準醫療,創新藥的研發模擬等等。

與之相配套的是大量新型硬件的出現,比如針對通用計算的顯卡(GP-GPU),專爲TensorFlow設計的TPU,以及各種FPGA專用芯片等等。僅剛剛過去的2018年,這樣的新硬件就不下數十種。

這些新型的硬件,在設計之初就充分考慮到了多租戶、虛擬化、容器化等新型的系統需求,對於雲端高性能計算的快速增長也是功不可沒的。

                                                                 新型硬件:Google TPU(來源:Google)

 

趨勢:巨大的市場潛力

儘管雲端的高性能計算還存在這樣那樣的短板,市場的發展卻是勢不可擋。

大家開始在雲端運行各種高性能計算任務,涉及生命科學、化工、人工智能、汽車設計、精準醫療、數字圖像處理等各種科學 / 商業計算場景

高性能計算用戶也開始能享受到雲計算平臺帶來的快速部署、可擴展性、多租戶、按使用量付費好處

Market Research Future(MRFR)的調查表明,目前大概有25%的企業都有運行高性能計算業務,雲端高性能計算在接下來的五年內仍將保持高達21%的年均增長率。

  http://www.fastonetech.com/

END -

 

你也許有興趣:

速石短評:Novartis新世代HPC系統的十大策略

閒話高性能計算

從瘋漲的房租說起,聊聊資源優化配置那點事兒

一小時內完成百萬計算任務?

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章