淺析HPC體系結構發展之路

     HPC(High Performance Computing)即高性能計算。有別於普通的PC,HPC被廣泛應用在科研、金融、國防、能源等對計算性能要求非常高的領域。高性能計算機的體系結構在不斷變化,從SMP, MPP, DSM等多處理器系統到集羣Cluster,到分佈式計算系統,例如網格以及工作站等等,所有這些變化的目的都是爲了計算性能的提升。本文就HPC體系結構的發展歷程以及趨勢作一個簡單的分析。


 1 HPC體系結構發展歷史的簡單回顧

      20世紀70年代出現的向量計算機可以看作是第一代的高性能計算機。通過在計算機中加入向量流水部件,可以大大提高科學計算中向量運算的速度,其中比較著名的有 CDC 系列、CRAY 系列、NEC 的 SX 系列向量機。中國有代表性的是銀河1號及中科院計算所的 757計算機。 80 年代初,隨着VLSI技術和微處理器的技術的發展,向量機一統天下的格局逐漸被打破。通過多個廉價的微處理器構建的並行化超級計算機開始出現。“性能/價格比”而非單一性能成爲衡量高性能計算機系統的重要指標。對稱多處理機即SMP系統在這種形式下應運而生,SMP由數目相對較少的微處理器共享物理內存和 I/O總線形成的計算機系統(國內最早基於微處理器的 SMP爲曙光 1 號)。SMP與單機系統兼容性好,是單機系統的升級與增強,被廣泛應用於商業計算領域。 由於在可擴展性上存在的“先天缺陷”,90年代初期,大規模並行處理(MPP)系統取代SMP開始成爲高性能計算機發展的主流。MPP主要由多個微處理器通過高速互聯網絡構成,每個處理器之間通過消息傳遞的方式進行通訊和協調。比較有代表性的有TMC 的CM-5, Intel Paragon 等。中國的第一個MPP系統是曙光 1000 計算機。 90 年代中後期的一種趨勢是將 SMP的優點和 MPP的擴展能力結合起來,這一趨勢發展成後來的 CC-NUMA 結構,即分佈式共享內存。每個處理器節點都可以訪問到所有其它節點的內存,但訪問遠程內存需要的延遲相對較大。代表性的系統有 Sequent NUMA-Q, SGI-Cray Origin 等,國內的神威與銀河系列等。 在發展 CC-NUMA的同時,集羣系統(Cluster)也迅速發展起來。類似MPP 結構,集羣系統是由多個微處理器構成的計算機節點通過高速網絡互連而成。節點一般是可以單獨運行的商品化計算機。由於規模經濟成本低的原因,集羣系統具有比 MPP更高的性/價比優勢。集羣系統還繼承了MPP系統的編程模型,更進一步加強其競爭優勢。代表性的系統是IBM SP2,國內有曙光3000,4000等系列。到 2000 年初集羣實際上已經構成了高性能計算機系統的主流。據 2003 年的統計,TOP500 中的MPP(含CC-NUMA)佔42%,Cluster佔29.8%。 MPP 取代向量機和機羣逐步替代MPP這兩個進程的背後都是摩爾定律在起作用。高性能計算機體系結構的創新必須與半導體技術和產業發展相結合,否則很難變成主流技術,這也是SIMD系統、陣列機、數據流等新型體系結構沒有流行起來的主要原因。


2 HPC的研究現狀

      HPC的研究之所以成爲全球計算機界競相逐鹿的領域,源於它對國家發展具有的重大意義:首先就是國家安全,美國在HPC領域的地位至今無人可動搖,從美國以往的HPC計劃來看,美國研製超級計算機的首要任務就是爲了解決國家安全問題。例如美國能源部的ASCI計劃,分別委託 Intel、SGI、IBM、HP 等公司構建超大規模的集羣系統,而今年6月最新出爐的TOP500榜單中排名第一的Roadrunner就是由美國能源部(Department of Energy)國家核能安全管理部(National Nuclear Security Administration,NNSA)委託IBM打造,主要用來確保美國核能武器儲存量的安全及可靠性。第二是加快科學研究,像日本Riken高性能計算中心和NEC針對專用領域的MDGRAPE-3,用於分析蛋白質分子。第三則是經濟發展的需要,這也是我國發展千萬億次超級計算機的主要目的,在未來的網格環境中,像公用計算(Utility Computing)將是主要的計算模式,千萬億次機將在這種環境中發揮作用。 目前高性能計算機體系結構的主流仍然是 MPP和機羣技術的進一步發展,通過將更多的處理器連接起來構建更大規模的並行系統。2008年6月,IBM的road runner打破了BLUE GENE/L系列在TOP500中的領先地位,運算速度首次突破1Petaflops(即千萬億次/秒),其所採用的主流系統結構仍然是cluster,它擁有130536個計算核心,包括12960顆Cell引擎的116640個PPE和SPE核心,以及6948顆雙核AMD Opteron處理器。Roadrunner是全球第一臺採用Cell處理器的混合式超級計算機。此外,Roadrunner首次結合傳統的超級計算機處理器以及專爲Sony PS3所設計的Cell 芯片,這也就意味着IBM首次將異構計算引入其超級計算機中。異構計算是近年HPC領域與多核一起崛起的新趨勢,已經在國際高性能計算領域掀起了又一陣熱潮,它被公認爲提高HPC性能的有效手段。 在08年六月的這次TOP500排名中,也首次提供了計算機的節能排名。當然這主要是看該系統在運行一個典型HPC應用負載時的情況,而並沒有考慮到外部製冷、磁盤、以及其他外部環境帶來的能耗影響。進入TOP500前十的計算機中,平均能耗(Power consumption)爲1.32 Mwatt,平均能效(power efficiency)爲248 Mflop/s/Watt。我們發現在這份新發布的榜單中的系統能耗比以前降低了近10%,能效也有大幅提升。原因我想是因爲新技術的應用帶來了更低的能耗,而在榜單中那些新舊技術混合的系統指標則大都低於平均能效標準。因此,在今後的計算技術發展趨勢中,低能耗應該會成爲一個重要的衡量標準。 在HPC的系統結構研究方面,許多國家都在積極進行嘗試新的突破。美國 Stanford 大學的Streaming SuperComputer 計劃,就嘗試採用專門設計的 streaming 處理器來構建超級計算機。一個Streaming 節點中集成了128 個1GHz 的 FPU,一個背板支持 32個節點,32個背板就可以接近 PetaFlops的計算性能,而預計成本只有 4千萬美元。Streaming 技術最初的思想來源於專用遊戲機的設計中。現有科學計算應用是否能有效移植還有待研究。 網格技術有可能成爲實現 PetaFlops的另一條途徑。網格是近年來計算機體系結構發展的一個重要方向,其基本思想是通過 Internet 進行資源共享和協同工作。目前連接到 Internet的計算機已經達到 1 億臺以上,通過互聯網可能達到的聚合計算潛力是不可估量的。國際上已經有 Globus 等組織爲網格環境制定標準和參考實現。但是用網格技術實現 Petaflops 仍需要關鍵技術上的突破:一方面互聯網連接的速度和帶寬仍有待提高,近年網絡通信技術以超摩爾定律的速度高速增長已經爲此提供了可能,達到實用階段只是時間問題。另一方面是有效的網格體系模型和計算模型還沒有建立。網格的資源是分散和動態的,計算也是一種分散的、動態的過程,傳統的並行共享內存或消息傳遞程序模式不能直接有效的利用。如何使科學計算高效使用網格的計算能力是當前一個主要研究方向。


3 HPC 的發展趨勢

      2008年應該是HPC發展之路上的一個里程碑,結合我們現有的技術來預測一下HPC的發展趨勢,可以包括以下幾個方面: 1)從多核到衆核的變遷:Intel展示的80核處理器原型的峯值計算能力可達1Teraflop,不僅證明了當前的多核架構不再是短暫的時尚,而且表明業界已爲未來的衆核發展制定了切實可行的計劃。衆核處理器正在浮出水面,但處理器技術的發展並不只是單純增加內核數量,內核功能也將趨於多元化,即異構架構。 2)異構計算:高性能計算系統的異構主要體現在三個層次:芯片級異構(即在單芯片內部集成異構多核)、節點級異構以及系統級異構。 3)虛擬化:近幾年虛擬化技術受到了越來越多的重視,通過虛擬化技術能夠將基礎設施從物理變成虛擬的資源池,能夠滿足降低成本(包括管理成本、硬件、佔地空間和電力消耗)的需求。虛擬化技術包括:面向專用操作系統的虛擬化和集羣虛擬化。 4)綠色高性能:近幾年高性能計算的性能在飛速上升,但是能耗問題已引起業內人士的意識發生轉變。實際上,從今年TOP500的排名中,我們已經看到了這種轉變。Tabor Communications 的專家Mike Bernhardt認爲高性能計算界對綠色計算的意識在不斷增強,主要源於對環境問題和經濟成本兩方面的考慮,而目前美國已經開始着力建立綠色計算的評判標準。 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章