淺談多節點CPU+GPU協同計算負載均衡性設計

近年來，基於CPU+GPU的混合異構計算系統開始逐漸成爲國內外高性能計算領域的熱點研究方向。在實際應用中，許多基於 CPU+GPU 的混合異構計算機系統表現出了良好的性能。但是，由於各種歷史和現實原因的制約，異構計算仍然面臨着諸多方面的問題，其中最突出的問題是程序開發困難，尤其是擴展到集羣規模級別時這個問題更爲突出。主要表現在擴展性、負載均衡、自適應性、通信、內存等方面。

一、 CPU+GPU協同計算模式

CPU+GPU異構協同計算集羣如圖1所示，CPU+GPU異構集羣可以劃分成三個並行層次：節點間並行、節點內CPU與GPU異構並行、設備（CPU或GPU）內並行。根據這三個層次我們可以得到CPU+GPU異構協同計算模式爲：節點間分佈式+節點內異構式+設備內共享式。

1 節點間分佈式

CPU+GPU異構協同計算集羣中，各個節點之間的連接與傳統CPU集羣一樣，採用網絡連接，因此，節點間採用了分佈式的計算方式，可以採用MPI消息通信的並行編程語言。

2 節點內異構式

CPU+GPU異構協同計算集羣中，每個節點上包含多核CPU和一塊或多塊GPU卡，節點內採用了異構的架構，採用主從式的編程模型，即每個GPU卡需要由CPU進程/線程調用。

由於每個節點上，CPU核數也比較多，計算能力也很大，因此，在多數情況下，CPU也會參與部分並行計算，根據CPU是否參與並行計算，我們可以把CPU+GPU異構協同計算劃分成兩種計算模式：

1) CPU/GPU協同計算：CPU只負責複雜邏輯和事務處理等串行計算，GPU 進行大規模並行計算；

2) CPU+GPU共同計算：由一個CPU進程/線程負責複雜邏輯和事務處理等串行計算，其它CPU進程/線程負責小部分並行計算，GPU負責大部分並行計算。

由於CPU/GPU協同計算模式比CPU+GPU共同計算模式簡單，下面的介紹中，我們以CPU+GPU共同計算模式爲例進行展開介紹各種編程模式。

在CPU+GPU共同計算模式下，我們把所有的CPU統稱爲一個設備（device），如雙路8核CPU共有16個核，我們把這16個核統稱成一個設備；每個GPU卡成爲一個設備。根據這種劃分方式，我們可以採用MPI進程或OpenMP線程控制節點內的各設備之間的通信和數據劃分。

3 設備內共享式

1) CPU設備：每個節點內的所有多核CPU採用了共享存儲模型，因此，把節點內的所有多核CPU看作一個設備，可以採用MPI進程或OpenMP線程、pThread線程控制這些CPU核的並行計算。

2) GPU設備：GPU設備內有自己獨立的DRAM存儲，GPU設備也是共享存儲模型，在GPU上採用CUDA或OpenCL編程控制GPU衆核的並行計算。CUDA編程模式只在NVIDIA GPU上支持，OpenCL編程模式在NVIDIA GPU和AMD GPU都支持。

根據前面對CPU+GPU異構協同計算模式的描述，我們可以得到CPU+GPU異構協同計算的編程模型（以MPI和OpenMP爲例）如表1所示。

圖1 CPU+GPU異構協同計算架構

表1 CPU+GPU異構協同計算編程模型

	節點間分佈式	節點內異構式	設備內共享式
	節點間分佈式	節點內異構式	CPU	GPU
模式1	MPI	OpenMP	OpenMP	CUDA/OpenCL
模式2	MPI	MPI	OpenMP	CUDA/OpenCL
模式3	MPI	MPI	MPI	CUDA/OpenCL

二、 CPU+GPU協同計算負載均衡性設計

下面以模式2爲例簡單介紹多節點CPU+GPU協同計算任務劃分和負載均衡，模式2的進程和線程與CPU核和GPU設備對應關係如圖2所示。若採用主從式MPI通信機制，我們在節點0上多起一個進程（0號進程）作爲主進程，控制其它所有進程。每個節點上啓動3個計算進程，其中兩個控制GPU設備，一個控制其餘所有CPU核的並行，在GPU內採用CUDA/OpenCL並行，在CPU設備內採用OpenMP多線程並行。

由於CPU+GPU協同計算模式分爲3個層次，那麼負載均衡性也需要在這3個層次上分別設計。在模式2的編程方式下，節點內和節點間均採用MPI進程，合二爲一，設計負載均衡時，只需要做到進程間（設備之間）的負載均衡和CPU設備內OpenMP線程負載均衡、GPU設備內CUDA線程負載均衡即可。

對於設備內，採用的是共享存儲器模型，CPU設備上的OpenMP線程可以採用schedule(static/ dynamic/ guided )方式；GPU設備上只要保證同一warp內的線程負載均衡即可。

對於CPU+GPU協同計算，由於CPU和GPU計算能力相差很大，因此，在對任務和數據劃分時不能給CPU設備和GPU設備劃分相同的任務/數據量，這就增加了CPU與GPU設備間負載均衡的難度。CPU與GPU之間的負載均衡最好的方式是採用動態負載均衡的方法，然而有些應用無法用動態劃分而只能採用靜態劃分的方式。下面我們分別介紹動態劃分和靜態劃分。

1) 動態劃分：對於一些高性能計算應用程序，在CPU與GPU之間的負載均衡可以採用動態負載均衡的優化方法，例如有N個任務/數據，一個節點內有2個GPU卡，即三個設備（CPU和2個GPU），動態負載均衡的方法是每個設備先獲取一個任務/數據進行計算，計算之後立即獲取下一個任務，不需要等待其他設備，直到N個任務/數據計算完成。這種方式只需要在集羣上設定一個主進程，負責給各個計算進程分配任務/數據。

2) 靜態劃分：在一些應用中，無法採用動態劃分的方式，需要靜態劃分方法，然而靜態劃分方法使異構設備間的負載均衡變得困難，有時甚至無法實現。對於一些迭代應用程序，我們可以採用學習型的數據劃分方法，如先讓CPU和GPU分別做一次相同計算量的計算，然後通過各自的運行時間計算出CPU與GPU的計算能力比例，然後再對數據進行劃分。

圖2 CPU+GPU協同計算示意圖（以每個節點2個GPU爲例）

三、 CPU+GPU協同計算數據劃分示例

假設某一應用的數據特點如圖3所示，從輸出看，結果中的每個值的計算需要所有輸入數據的信息，所有輸出值的計算之間沒有任何數據依賴性，可以表示成out_j=；從輸入看，每個輸入值對所有的輸出值都產生影響，所有輸入數據之間也沒有任何數據依賴性。從數據特點可以看出，該應用既可以對輸入進行並行數據劃分也可以對輸出進行數據劃分。下面我們分析CPU+GPU協同計算時的數據劃分方式。

圖3 並行數據示例

1 按輸入數據劃分

假設按輸入數據劃分，我們可以採用動態的方式給每個CPU或GPU設備分配數據，做到動態負載均衡，然而這種劃分方式，使所有的線程向同一個輸出位置保存結果，爲了正確性，需要使所有的線程對每個結果進行原子操作，這樣將會嚴重影響性能，極端情況下，所有線程還是按順序執行的。因此，這種方式效果很差。

2 按輸出數據劃分

按輸出數據劃分的話可以讓每個線程做不同位置的結果計算，計算完全獨立，沒有依賴性。如果採用靜態劃分的方式，由於CPU和GPU計算能力不同，因此，很難做到負載均衡。採用動態的方式可以做到負載均衡，即把結果每次給CPU或GPU設備一塊，當設備計算完本次之後，立即向主進程申請下一個分塊，這樣可以做到完全負載均衡。按輸出數據劃分，無論採用靜態劃分還是動態劃分，都會帶來另外一個問題，由於每個結果的計算都需要所有輸入信息，那麼所有進程（設備）都需要讀取一遍所有輸入數據，動態劃分時還不只一次，尤其對於輸入數據很大時，這將會對輸入數據的IO產生很大的影響，很有可能使IO程序性能瓶頸。

3 按輸入和輸出同時劃分

由於按輸入或按輸出劃分都存在不同的缺點，我們可以採用輸入和輸出同時劃分的方式進行數據劃分，如圖4所示。

從輸出角度，讓所有的計算進程（設備）都有一份計算結果，設備內的線程對結果進行並行計算，每個設備都有一份局部的計算結果，所有設備都計算完畢之後，利用MPI進程對所有設備的計算結果進行規約，規約最後的結果即是最終的結果。

從輸入角度，按輸入數據動態劃分給不同的計算進程（設備），這樣可以滿足所有的計算進程負載均衡。

圖4 CPU+GPU協同計算數據劃分示例

天山

發佈了32 篇原創文章 · 獲贊 31 · 訪問量 17萬+

私信關注

淺談多節點CPU+GPU協同計算負載均衡性設計

Intel MIC學習資料

Intel MIC開發環境安裝

基於MIC平臺的向量加示例

2011年中國高性能計算機性能TOP100排行榜

《MIC高性能計算編程指南》勘誤表

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結