Overview
Gustafson 定律(Gustafson’s law)闡述了數據並行帶來的影響。Gustafson 定律是由 John L. Gustafson 在1988年提出的。是並行計算領域除了 Amdahl 定律之後又一個重要定律。
Introduction
Amdahl 定律有一個重要前提,就是處理的數據集大小是固定的,但是這在大數據計算的領域裏,這個假設並不經常能達到,因爲人們總是會爲了在短時間內處理更多的數據,而爲了達到目的,往往會在計算集羣增加更多的處理器。
Gustafson 定律的提出,始於 Gustafson 實驗室的一個實驗,在一個擁有1024個處理器的計算機,觀察到了超線性加速比,分別獲得了1021x/1020x/1016x的加速比,如果按照 Amdahl 定律,1024核,早就在某處歇菜了,哪裏來1000x以上的加速。
1021 for beam stress analysis using conjugate gradients, 1020 for baffled surface wave simulation using explicit finite differences, and 1016 for unstable fluid flow using flux-corrected transport.
現在看看這個下面這個圖,可以理解一下,數據規模和處理器個數以及時間的關係。
解讀一下這個圖,爲了達到隨着數據規模 增大,所用到的處理器 也成倍增加。所以加速比,可以用相同時間處理的數據量來衡量,用下面的公式表示。
下面的公式,說明在一臺機器裏,串行代碼的比例 ,其實就是串行代碼運行的時間 和串行以及並行代碼運行時間的和 的比值。
經過換元,加速比公式可以換成下面那種形式。
又知道並行代碼所佔的比例 是 和串行以及並行代碼運行時間的和 的比值。
又來換元了,所以加速比的公式簡化成下面的樣子。
已知 是固定的,那麼加速比 就會向 漸近。
Summary
Gustafson 認爲,串行部分代碼比例固定的前提加,加速比會隨着處理器個數增加而增加。需要注意下圖 表示串行代碼的部分,可以見到,隨着串行部分代碼的增加,加速比越來越弱雞。
所以 Gustafson 的意思就是說,如果你代碼裏少點串行的部分,你的代碼可以在多核環境下起飛(當然也不是沒有限制)。