11張圖步步演進：你一定能看懂的【分佈式系統】容錯架構設計！

TB級數據放在一臺機器上：難啊！
到底啥是分佈式存儲？
啥又是分佈式存儲系統？
某臺機器宕機了咋辦？
Master節點如何感知到數據副本消失？
如何複製副本保持足夠副本數量？
刪除多餘副本又該怎麼做呢？
全文總結

“ 這篇文章，我們將用非常淺顯易懂的語言，跟大家聊聊大規模分佈式系統的容錯架構設計。

雖然定位是有“分佈式”、“容錯架構”等看起來略顯複雜的字眼，但是咱們還是按照老規矩：大白話 + 手繪數張彩圖，逐步遞進，讓每個同學都能看懂這種複雜架構的設計思想。

1、TB級數據放在一臺機器上：難啊！

咱們就用分佈式存儲系統舉例，來聊一下容錯架構的設計。

首先，我們來瞧瞧，到底啥是分佈式存儲系統呢？

其實特別的簡單，咱們就用數據庫裏的一張表來舉例。

比如你手頭有個數據庫，數據庫裏有一張特別大的表，裏面有幾十億，甚至上百億的數據。

更進一步說，假設這一張表的數據量多達幾十個TB，甚至上百個TB，這時你覺得咋樣？

當然是內心感到恐慌和無助了，因爲如果你用MySQL之類的數據庫，單臺數據庫服務器上的磁盤可能都不夠放這一張表的數據！

咱們就來看看下面的這張圖，來感受一下。

2、到底啥是分佈式存儲？

所以，假如你手頭有一個超大的數據集，幾百TB！那你還是別考慮傳統的數據庫技術來存放了。

因爲用一臺數據庫服務器可能根本都放不下，所以我們考慮一下分佈式存儲技術？對了！這纔是解決這個問題的辦法。

咱們完全可以搞多臺機器嘛！比如搞20臺機器，每臺機器上就放1/20的數據。

舉個例子，比如總共20TB的數據，在每臺機器上只要把1TB就可以了，1TB應該還好吧？每臺機器都可以輕鬆加愉快的放下這麼多數據了。

所以說，把一個超大的數據集拆分成多片，給放到多臺機器上去，這就是所謂的分佈式存儲。

咱們再看看下面的圖。

3、啥又是分佈式存儲系統？

分佈式存儲系統，當然就是負責把一個超大數據集拆分成多塊，然後放到多臺機器上來存儲，接着統一管理這些分散在多臺機器上存儲的數據的一套系統。

比如說經典的hadoop就是這類系統，然後fastdfs也是類似的。

如果你可以腦洞打開，從思想本質共通的層面出發，那你會發現，其實類似elasticsearch、redis cluster等等系統，他本質都是如此。

這些都是基於分佈式的系統架構，把超大數據拆分成多片給你存放在多臺機器上。

咱們這篇文章是從分佈式系統架構層面出發，不拘泥於任何一種技術，所以姑且可以設定：這套分佈式存儲系統，有兩種進程。

一個進程是Master節點，就在一臺機器上，負責統一管控分散在多臺機器上的數據。

另外一批進程叫做Slave節點，每臺機器上都有一個Slave節點，負責管理那臺機器上的數據，跟Master節點進行通信。

咱們看看下面的圖，通過圖再來直觀的看看上面的描述。

4、某臺機器宕機了咋辦？

這個時候又有一個問題了，那麼萬一上面那20臺機器上，其中1臺機器宕機了咋整呢？

這就尷尬了，兄弟，這會導致本來完整的一份20TB的數據，最後有19TB還在了，有1TB的數據就搞丟了，因爲那臺機器宕機了啊。

所以說你當然不能允許這種情況的發生，這個時候就必須做一個數據副本的策略。

比如說，我們完全可以給每一臺機器上的那1TB的數據做2個副本的冗餘，放在別的機器上，然後呢，萬一說某一臺機器宕機，沒事啊，因爲其他機器上還有他的副本。

我們來看看這種多副本冗餘的架構設計圖。

上面那個圖裏的淺藍色的“1TB數據01”，代表的是20TB數據集中的第一個1TB數據分片。

圖中可以看到，他就有3個副本，分別在三臺機器中都有淺藍色的方塊，代表了他的三個副本。

這樣的話，一份數據就有了3個副本了。其他的數據也是類似。

這個時候我們假設有一臺機器宕機了，比如下面這臺機器宕機，必然會導致“1TB數據01”這個數據分片的其中一個數據副本丟失。如下圖所示：

那這個時候要緊嗎？不要緊，因爲“1TB數據01”這個數據分片，他還有另外2個副本在存活的兩臺機器上呢！

所以如果有人要讀取數據，完全可以從另外兩臺機器上隨便挑一個副本來讀取就可以了，數據不會丟的，不要緊張，大兄弟。

5、Master節點如何感知到數據副本消失？

現在有一個問題，比如說有個兄弟要讀取“1TB數據01”這個數據分片，那麼他就會找Master節點，說：

“你能不能告訴我“1TB數據01”這個數據分片人在哪裏啊？在哪臺機器上啊？我需要讀他啊！”

我們來看看下面的圖。

那麼這個時候，Master節點就需要從“1TB數據01”的3個副本里選擇一個出來，告訴人家說：

“兄弟，在哪臺哪臺機器上，有1個副本，你可以去那臺機器上讀“1TB數據01”的一個副本就ok了。”

但是現在的問題是，Master節點此時還不知道“1TB數據01”的副本3已經丟失了，那萬一Master節點還是通知人家去讀取一個已經丟失的副本3，肯定是不可以的。

我們怎麼才能讓Master節點知道副本3已經丟失了呢？

其實也很簡單，每臺機器上負責管理數據的Slave節點，都每隔幾秒（比如說1秒）給Master節點發送一個心跳。

那麼，一旦Master節點發現一段時間（比如說30秒內）沒收到某個Slave節點發送過來的心跳，此時就會認爲這個Slave節點所在機器宕機了，那臺機器上的數據副本都丟失了，然後Master節點就不會告訴別人去讀那個丟失的數據副本。

大家看看下面的圖，一旦Slave節點宕機，Master節點收不到心跳，就會認爲那臺機器上的副本3就已經丟失了，此時絕對不會讓別人去讀那臺宕機機器上的副本3。

那麼此時，Master節點就可以通知人家去讀“1TB數據01”的副本1或者副本2，哪個都行，因爲那兩個副本其實還是在的。

舉個例子，比如可以通知客戶端去讀副本1，此時客戶端就可以找那臺機器上的Slave節點說要讀取那個副本1。

整個過程如下圖所示。

6、複製副本保持足夠副本數量

這個時候又有另外一個問題，那就是“1TB數據01”這個數據分片此時只有副本1和副本2這兩個副本了，這就不足夠3個副本啊。

因爲我們預設的是每個數據分片都得有3個副本的。大家想想，此時如何給這個數據分片增加1個副本呢？

很簡單，Master節點一旦感知到某臺機器宕機，就能感知到某個數據分片的副本數量不足了。

此時，就會生成一個副本複製的任務，挑選另外一臺機器來從有副本的機器去複製一個副本。

比如看下面的圖，可以挑選第四臺機器從第二臺機器去複製一個副本。

但是，現在這個複製任務是有了，我們怎麼讓機器4知道呢？

其實也很簡單，機器4不是每秒都會發送一次心跳麼？當機器4發送心跳過去的時候，Master節點就通過心跳響應把這個複製任務下發給機器4，讓機器4從機器2複製一個副本好了。

同樣，我們來一張圖，看看這個過程：

看上圖，現在機器4上是不是又多了一個“1TB數據01”的副本3 ？那麼“1TB數據01”這個數據分片是不是又變成3個副本了？

7、刪除多餘副本

那反過來，如果說此時機器3突然恢復了，他上面也有一個“1TB數據01”的副本3，相當於此時“1TB數據01”就有4個副本了，副本不就多餘了嗎？

沒關係，一旦Master節點感知到機器3復活，會發現副本數量過多，此時會生成一個刪除副本任務。

他會在機器3發送心跳的時候，下發一個刪除副本的指令，讓機器3刪除自己本地多餘的副本就可以了。這樣，就可以保持副本數量只有3個。

一樣的，大家來看看下面的圖。

8、全文總結

好了，到這裏，通過超級大白話的講解，還有十多張圖的漸進式演進說明，相信大家以前即使不瞭解分佈式系統，都絕對能理解一個分佈式系統的完整的數據容錯架構是如何設計的了。

實際上，這種數據分片存儲、多副本冗餘、宕機感知、自動副本遷移、多餘副本刪除，這套機制，對於hadoop、elasticsearch等很多系統來說，都是類似的。

所以筆者在這裏強烈建議大家，一定好好吸收一下這種分佈式系統、中間件系統底層數據容錯架構的思想。

這樣，以後學習類似的一些技術的時候，對他們的原理、思想都會感到一種似曾相識的感覺。

END

11張圖步步演進：你一定能看懂的【分佈式系統】容錯架構設計！

學習筆記(05):Oracle數據庫性能優化整套方法論之系統與實例優化-配置undo tablespace(上)...

學習筆記(04):Oracle數據庫性能優化整套方法論之系統與實例優化-Oracle性能配置...

學習筆記(03):Oracle數據庫性能優化整套方法論之系統與實例優化-性能提升方法...

學習筆記(02):Oracle數據庫性能優化整套方法論之系統與實例優化-性能規劃從設計開發階段開始...

學習筆記(01):Oracle數據庫性能優化整套方法論之系統與實例優化-Oracle性能優化概論...

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結