分佈式存儲系統可靠性如何估算？

常規情況下，我們一般使用多副本技術來提高存儲系統的可靠性，無論是結構化數據庫存儲 (如典型的 mysql)、文檔型 Nosql 數據庫存儲 (mongodb ) 或者是常規的 blob 存儲系統 (GFS、Hadoop) 等，無不如此。

　　因爲數據幾乎可以稱得上是企業生命力的核心，保障數據存儲系統的可靠性對於任何企業來說都不是一件小事。

　　數據丟失與 copyset(複製組)

　　“在由 999 塊磁盤組成的 3 副本存儲系統中，同時壞三塊盤的情況下數據丟失的概率是多大? ”，這個跟存儲系統的設計息息相關，我們先考慮兩個極端設計下的情況。

　　設計一：把 999 塊磁盤組成 333 塊磁盤對。

　　在這種設計下，只有選中其中一個磁盤對纔會發生數據丟失。

　　這種設計中，丟失數據的概率爲 333/C(999,3) = 5.025095326058336*e-07。

　　設計二：數據隨機打散到 999 塊盤中。

　　極端情況下，隨機一塊盤上的邏輯數據的副本數據打散在所有集羣中的 998 塊盤中。這種設計下，丟失數據的概率爲 C(999,3)/C(999,3)=1，也就是必然存在。

　　通過這兩種極端的例子我們可以看到，數據的丟失概率跟數據的打散程度息息相關。爲了方便後續閱讀，這裏我們引入一個新的概念 copyset (複製組)。

　　CopySet：包含一個數據的所有副本數據的設備組合，比如一份數據寫入 1，2，3 三塊盤，那麼 {1,2,3} 就是一個複製組。

　　9 個磁盤的集羣中，最小情況下的 copyset 的組合數爲 3，copysets = {1,2,3}、{4,5,6}、{7,8,9}，即一份數據的寫入只能選擇其中一個複製組，那麼只有 {1,2,3}、{4,5,6} 或者 {7,8,9} 同時壞的情況下才會出現數據丟失。即最小 copyset 數量爲 N/R。

　　系統中最大的 copyset 的數目爲 C(N,R) ，其中 R 爲副本數，N 爲磁盤的數量。在完全隨機選擇節點寫入副本數據的情況下，系統中的 copyset 數目會達到最大值 C(N,R)。即任意選擇 R 個磁盤都會發生一部分數據的三個副本都在這 R 個盤上的情況。

　　磁盤數量 N，副本爲 R 的存儲系統中，copyset 數量 S, N/R < S < C(N, R)

　　磁盤故障與存儲系統可靠性估算

　　1. 磁盤故障與柏鬆分佈

　　在正式估算相關概率之前還需要科普一個基礎的概率學分佈：柏鬆分佈。柏鬆分佈主要描述在一個系統中隨機事件發生的概率，譬如描述汽車站臺候客人數爲某個值的概率，某個醫院 1 小時內出生 N 個新生兒的概率等等，對泊松分佈做的更爲形象的介紹可參閱阮一峯的《泊松分佈和指數分佈： 10 分鐘教程》。

　　如上爲泊松分佈的公式。其中，P 表示概率，N 表示某種函數關係，t 表示時間，n 表示數量，λ 表示事件的頻率。

　　舉個例子：1000 塊磁盤在 1 年內出現 10 塊故障的概率爲 P (N(365) = 10) [注：t 的平均單位爲天]。λ 爲 1000 塊磁盤 1 天內發生故障磁盤的數量，按照 google 的統計，年故障率在 8%，那麼 λ = 10008%/365 。

　　如上只是損壞 N 塊磁盤概率的統計，那麼怎麼利用這個公式計算分佈式系統中數據可靠性 (即數據丟失概率) 的近似值呢?

　　2. 分佈式存儲系統中丟失率的估算

　　2.1 T 時間內的故障率

　　對於分佈式存儲系統中如何進行年故障率的估算，我們先假定一種情況：T 爲 1 年的情況下，系統存滿數據，壞盤不處理，這種情況下統計一下數據的年故障率。

　　這裏我們先定義一些值

　　N：磁盤數量

　　T：統計時間

　　K：壞盤數量

　　S：系統中 copyset 數量 (複製組的個數)

　　R：備份數量

　　如何計算 T(1年)時間內數據丟失的概率，從概率統計角度來說就是把 T (1 年) 時間內所有可能出現數據丟失的事件全部考慮進去。包含 N 個磁盤 R 副本冗餘的系統中，在 T 時間內可能出現數據丟失的事件，即壞盤大於等於 R 的事件，即 R，R+1，R+2，… N ( 即爲 K∈[R,N] 區間所有的事件 )。這些隨機事件發生時，什麼情況下會造成數據丟失?沒錯，就是命中複製組的情況下。

　　K 個損壞情況下 (隨機選擇 K 個盤情況下) 命中複製組的概率爲：

　　p = X/C(N,K) 其中 X 爲隨機選擇 K 個磁盤過程中命中複製組的組合數

　　那麼系統出現 K 個磁盤損壞造成數據丟失的概率爲：

　　Pa(T,K) = p * P(N(T)=K)

　　最後系統中 T 時間內出現數據丟失的概率爲所有可能出現數據丟失的事件的概率總和。

　　Pb(T) = Σ Pa(T,K) ; K∈[R,N]

　　2.2 分佈式系統衡量年故障率

　　以上我們假設在一年中，不對任何硬件故障做恢復措施，那麼 t 用一年代入即可算出此種系統狀態下的年故障率。但是在大規模存儲系統中，數據丟失情況下往往會啓動恢復程序，恢復完了之後理論上又算是從初始狀態的隨機事件，加入這個因素之後計算可靠性會變得比較複雜。

　　理論上大規模存儲系統中壞盤、恢復是極其複雜的連續事件，這裏我們把這個概率模型簡化爲不同個單位時間 T 內的離散事件來進行統計計算。只要兩個 T 之間連續事件發生的概率極小，並且 T 時間內絕大部份壞盤情況能夠恢復，那麼下個時間 T 就是重新從新的狀態開始，則這種估算能夠保證近似正確性。T 的單位定義爲小時，那麼 1 年可以劃分爲 365*24/T 個時間段，那麼系統的年故障率可以理解爲 100% 減去所有單位 T 時間內都不發生故障的概率。

　　即系統整體丟失數據的概率爲:

　　Pc = 1 – (1-Pb(T))*(36524/T)

　　著作權歸作者所有。商業轉載請聯繫作者獲得授權，非商業轉載請註明出處。互聯網+時代，時刻要保持學習，攜手千鋒PHP,Dream It Possible。

匿名程序員老師

發佈了4 篇原創文章 · 獲贊 0 · 訪問量 1萬+

私信關注

分佈式存儲系統可靠性如何估算？

關於遊戲付費的一點想法

我通過CKA和CKS啦！

循環和方法

常量，變量和運算符

HTTP協議簡單認識

運算符，分支結構和循環結構

數組常用算法學習

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結