萬字總結:分佈式系統的38個知識點

大家好我是鹹魚了大半年的一灰灰,終於放暑假了,把小孩送回老家,作爲鹹魚的我也可以翻翻身了,接下來將趁着暑假的這段時間,將準備一個全新的分佈式專欄,爲了給大家提供更好的閱讀體驗,可以再我的個人站點上查看系列的專欄內容:

https://hhui.top/分佈式

天天說分佈式分佈式,那麼我們是否知道什麼是分佈式,分佈式會遇到什麼問題,有哪些理論支撐,有哪些經典的應對方案,業界是如何設計並保證分佈式系統的高可用呢?

1.架構設計

這一節將從一些經典的開源系統架構設計出發,來看一下,如何設計一個高質量的分佈式系統;

而一般的設計出發點,無外乎

  • 冗餘:簡單理解爲找個備胎,現任掛掉之後,備胎頂上
  • 拆分:不能讓一個人承擔所有的重任,拆分下,每個人負擔一部分,壓力均攤

1.1 主備架構

給現有的服務搭建一個備用的服務,兩者功能完全一致,區別在於平時只有主應用對外提供服務能力;而備應用則只需要保證與主應用能力一致,隨時待機即可,並不用對外提供服務;當主應用出現故障之後,將備應用切換爲主應用,原主應用下線;迅速的主備切換可以有效的縮短故障時間

基於上面的描述,主備架構特點比較清晰

  • 採用冗餘的方案,加一臺備用服務
  • 缺點就是資源浪費

其次就是這個架構模型最需要考慮的則是如何實現主備切換?

  • 人工
  • VIP(虛擬ip) + keepalived 機制

1.2 主從架構

主從一般又叫做讀寫分離,主提供讀寫能力,而從則只提供讀能力

鑑於當下的互聯網應用,絕大多數都是讀多寫少的場景;讀更容易成爲性能瓶頸,所以採用讀寫分離,可以有效的提高整個集羣的響應能力

主從架構可以區分爲:一主多從 + 一主一從再多從,以mysql的主從架構模型爲例進行說明

MySql主從

主從模式的主要特點在於

  • 添加從,源頭依然是數據冗餘的思想
  • 讀寫分離:主負責讀寫,從只負責讀,可以視爲負載均衡策略
  • 從需要向主同步數據,所若有的從都同步與主,對主的壓力依然可能很大;所以就有了主從從的模式

關鍵問題則在於

  • 主從延遲
  • 主的寫瓶頸
  • 主掛之後如何選主

1.3 多主多從架構

一主多從面臨單主節點的瓶頸問題,那就考慮多主多從的策略,同樣是主負責提供讀寫,從提供讀;

但是這裏有一個核心點在於多主之間的數據同步,如何保證數據的一致性是這個架構模型的重點

如MySql的雙主雙從可以說是一個典型的應用場景,在實際使用的時候除了上面的一致性之外,還需要考慮主鍵id衝突的問題

1.4 普通集羣模式

無主節點,集羣中所有的應用職能對等,沒有主次之分(當下絕大多數的業務服務都屬於這種),一個請求可以被集羣中任意一個服務響應;

這種也可以叫做去中心化的設計模式,如redis的集羣模式,eureka註冊中心,以可用性爲首要目標

對於普通集羣模式而言,重點需要考慮的點在於

  • 資源競爭:如何確保一個資源在同一時刻只能被一個業務操作
    • 如現在同時來了申請退款和貨物出庫的請求,如果不對這個訂單進行加鎖,兩個請求同時響應,將會導致發貨又退款了,導致財貨兩失
  • 數據一致性:如何確保所有的實例數據都是一致的,或者最終是一致的
    • 如應用服務使用jvm緩存,那麼如何確保所有實例的jvm緩存一致?
    • 如Eureka的分區導致不同的分區的註冊信息表不一致

1.5 數據分片架構

這個分片模型的描述可能並不準確,大家看的時候重點理解一下這個思想

前面幾個的架構中,採用的是數據冗餘的方式,即所有的實例都有一個全量的數據,而這裏的數據分片,則從數據拆分的思路來處理,將全量的數據,通過一定規則拆分到多個系統中,每個系統包含部分的數據,減小單個節點的壓力,主要用於解決數據量大的場景

比如redis的集羣方式,通過hash槽的方式進行分區

如es的索引分片存儲

1.6 一灰灰的小結

這一節主要從架構設計層面對當前的分佈式系統所採用的方案進行了一個簡單的歸類與小結,並不一定全面,歡迎各位大佬留言指正

基於冗餘的思想:

  • 主備
  • 主從
  • 多主多從
  • 無中心集羣

基於拆分的思想:

  • 數據分片

對於拆分這一塊,我們常說的分庫分表也體現的是這一思想

2.理論基礎

這一小節將介紹分佈式系統中的經典理論,如廣爲流程的CAP/BASE理論,一致性理論基礎paxios,raft,信息交換的Gossip協議,兩階段、三階段等

本節主要內容參考自

2.1 CAP定理

CAP 定理指出,分佈式系統 不可能 同時提供下面三個要求:

  • Consistency:一致性
    • 操作更新完成並返回客戶端之後,所有節點數據完全一致
  • Availability:可用性
    • 服務一直可用
  • Partition tolerance:分區容錯性
    • 分佈式系統在遇到某節點或網絡分區故障的時候,仍然能夠對外提供滿足一致性可用性的服務

通常來講P很難不保證,當服務部署到多臺實例上時,節點異常、網絡故障屬於常態,根據不同業務場景進行選擇

對於服務有限的應用而言,首選AP,保證高可用,即使部分機器異常,也不會導致整個服務不可用;如絕大多數的前臺應用都是這種

對於數據一致性要求高的場景,如涉及到錢的支付結算,CP可能更重要了

對於CAP的三種組合說明如下

選擇 說明
CA 放棄分區容錯性,加強一致性和可用性,其實就是傳統的單機場景
AP 放棄一致性(這裏說的一致性是強一致性),追求分區容錯性和可用性,這是很多分佈式系統設計時的選擇,例如很多NoSQL系統就是如此
CP 放棄可用性,追求一致性和分區容錯性,基本不會選擇,網絡問題會直接讓整個系統不可用

2.2 BASE理論

base理論作爲cap的延伸,其核心特點在於放棄強一致性,追求最終一致性

  • Basically Available: 基本可用
    • 指分佈式系統在出現故障的時候,允許損失部分可用性,即保證核心可用
    • 如大促時降級策略
  • Soft State:軟狀態
    • 允許系統存在中間狀態,而該中間狀態不會影響系統整體可用性
    • MySql異步方式的主從同步,可能導致的主從數據不一致
  • Eventual Consistency:最終一致性
    • 最終一致性是指系統中的所有數據副本經過一定時間後,最終能夠達到一致的狀態

基於上面的描述,可以看到BASE理論適用於大型高可用可擴展的分佈式系統

注意其不同於ACID的強一致性模型,而是通過犧牲強一致性 來獲得可用性,並允許數據在一段時間內是不一致的,但最終達到一致狀態

2.3 PACELEC 定理

這個真沒聽說過,以下內容來自:

  • 如果有一個分區('P'),分佈式系統可以在可用性和一致性(即'A'和'C')之間進行權衡;
  • 否則('E'),當系統在沒有分區的情況下正常運行時,系統可以在延遲('L')和一致性('C')之間進行權衡。

定理(PAC)的第一部分與CAP定理相同,ELC是擴展。整個論點假設我們通過複製來保持高可用性。因此,當失敗時,CAP定理佔上風。但如果沒有,我們仍然必須考慮複製系統的一致性和延遲之間的權衡。

2.4 Paxos共識算法

Paxos算法解決的問題是分佈式共識性問題,即一個分佈式系統中的各個進程如何就某個值(決議)通過共識達成一致

基於上面這個描述,可以看出它非常適用於選舉;其工作流程

  • 一個或多個提議進程 (Proposer) 可以發起提案 (Proposal),
  • Paxos算法使所有提案中的某一個提案,在所有進程中達成一致。 系統中的多數派同時認可該提案,即達成了一致

角色劃分:

  • Proposer: 提出提案Proposal,包含編號 + value
  • Acceptor: 參與決策,迴應Proposers的提案;當一個提案,被半數以上的Acceptor接受,則該提案被批准
    • 每個acceptor只能批准一個提案
  • Learner: 不參與決策,獲取最新的提案value

2.5 Raft算法

推薦有興趣的小夥伴,查看

爲了解決paxos的複雜性,raft算法提供了一套更易理解的算法基礎,其核心流程在於:

leader接受請求,並轉發給follow,當大部分follow響應之後,leader通知所有的follow提交請求、同時自己也提交請求並告訴調用方ok

角色劃分:

  • Leader:領導者,接受客戶端請求,並向Follower同步請求,當數據同步到大多數節點上後告訴Follower提交日誌
  • Follow: 接受並持久化Leader同步的數據,在Leader告之日誌可以提交之後,提交
  • Candidate:Leader選舉過程中的臨時角色,向其他節點拉選票,得到多數的晉升爲leader,選舉完成之後不存在這個角色

raft共識流程

2.6 ZAB協議

ZAB(Zookeeper Atomic Broadcast) 協議是爲分佈式協調服務ZooKeeper專門設計的一種支持崩潰恢復的一致性協議,基於該協議,ZooKeeper 實現了一種 主從模式的系統架構來保持集羣中各個副本之間的數據一致性。

主要用於zk的數據一致性場景,其核心思想是Leader再接受到事務請求之後,通過給Follower,當半數以上的Follower返回ACK之後,Leader提交提案,並向Follower發送commit信息

角色劃分

  • Leader: 負責整個Zookeeper 集羣工作機制中的核心
    • 事務請求的唯一調度和處理者,保證集羣事務處理的順序性
    • 集羣內部各服務器的調度者
  • Follower:Leader的追隨者
    • 處理客戶端的非實物請求,轉發事務請求給 Leader 服務器
    • 參與事務請求 Proposal 的投票
    • 參與 Leader 選舉投票
  • Observer:是 zookeeper 自 3.3.0 開始引入的一個角色,
    • 它不參與事務請求 Proposal 的投票,
    • 也不參與 Leader 選舉投票
    • 只提供非事務的服務(查詢),通常在不影響集羣事務處理能力的前提下提升集羣的非事務處理能力。

ZAB消息廣播

2.7 2PC協議

two-phase commit protocol,兩階段提交協議,主要是爲了解決強一致性,中心化的強一致性協議

角色劃分

  • 協調節點(coordinator):中心化
  • 參與者節點(partcipant):多個

執行流程

協調節點接收請求,然後向參與者節點提交 precommit,當所有的參與者都回復ok之後,協調節點再給所有的參與者節點提交commit,所有的都返回ok之後,才表明這個數據確認提交

當第一個階段,有一個參與者失敗,則所有的參與者節點都回滾

2pc流程

特點

優點在於實現簡單

缺點也很明顯

  • 協調節點的單點故障
  • 第一階段全部ack正常,第二階段存在部分參與者節點異常時,可能出現不一致問題

2.8 3PC協議

分佈式事務:兩階段提交與三階段提交 - SegmentFault 思否

在兩階段的基礎上進行擴展,將第一階段劃分兩部,cancommit + precommit,第三階段則爲 docommit

第一階段 cancommit

該階段協調者會去詢問各個參與者是否能夠正常執行事務,參與者根據自身情況回覆一個預估值,相對於真正的執行事務,這個過程是輕量的

第二階段 precommit

本階段協調者會根據第一階段的詢盤結果採取相應操作,若所有參與者都返回ok,則協調者向參與者提交事務執行(單不提交)通知;否則通知參與者abort回滾

第三階段 docommit

如果第二階段事務未中斷,那麼本階段協調者將會依據事務執行返回的結果來決定提交或回滾事務,若所有參與者正常執行,則提交;否則協調者+參與者回滾

在本階段如果因爲協調者或網絡問題,導致參與者遲遲不能收到來自協調者的 commit 或 rollback 請求,那麼參與者將不會如兩階段提交中那樣陷入阻塞,而是等待超時後繼續 commit,相對於兩階段提交雖然降低了同步阻塞,但仍然無法完全避免數據的不一致

特點

  • 降低了阻塞與單點故障:
    • 參與者返回 CanCommit 請求的響應後,等待第二階段指令,若等待超時/協調者宕機,則自動 abort,降低了阻塞;
    • 參與者返回 PreCommit 請求的響應後,等待第三階段指令,若等待超時/協調者宕機,則自動 commit 事務,也降低了阻塞;
  • 數據不一致問題依然存在
    • 比如第三階段協調者發出了 abort 請求,然後有些參與者沒有收到 abort,那麼就會自動 commit,造成數據不一致

2.9 Gossip協議

Gossip 協議,顧名思義,就像流言蜚語一樣,利用一種隨機、帶有傳染性的方式,將信息傳播到整個網絡中,並在一定時間內,使得系統內的所有節點數據一致。Gossip 協議通過上面的特性,可以保證系統能在極端情況下(比如集羣中只有一個節點在運行)也能運行

主要用在分佈式數據庫系統中各個副本節點同步數據之用,這種場景的一個最大特點就是組成的網絡的節點都是對等節點,是非結構化網絡

工作流程

  • 週期性的傳播消息,通常週期時間爲1s
  • 被感染的節點,隨機選擇n個相鄰節點,傳播消息
  • 每次傳播消息都選擇還沒有發送過的節點進行傳播
  • 收單消息的節點,不會傳播給向它發送消息的節點

Gossip傳播示意圖

特點

  • 擴展性:允許節點動態增加、減少,新增的節點狀態最終會與其他節點一致
  • 容錯:網絡中任意一個節點宕機重啓都不會影響消息傳播
  • 去中心化:不要求中心節點,所有節點對等,任何一個節點無需知道整個網絡狀況,只要網絡連通,則一個節點的消息最終會散播到整個網絡
  • 一致性收斂:協議中的消息會以一傳十、十傳百一樣的指數級速度在網絡中快速傳播,因此係統狀態的不一致可以在很快的時間內收斂到一致。消息傳播速度達到了 logN
  • 簡單:Gossip 協議的過程極其簡單,實現起來幾乎沒有太多複雜性

缺點

  • 消息延遲:節點只會隨機向少數幾個節點發送消息,消息最終是通過多個輪次的散播而到達全網的,因此使用 Gossip 協議會造成不可避免的消息延遲
  • 消息冗餘:節點會定期隨機選擇周圍節點發送消息,而收到消息的節點也會重複該步驟,導致消息的冗餘

2.10 一灰灰的小結

本節主要介紹的是分佈式系統設計中的一些常見的理論基石,如分佈式中如何保障一致性,如何對一個提案達成共識

  • BASE,CAP,PACELEC理論:構建穩定的分佈式系統應該考慮的方向
  • paxos,raft共識算法
  • zab一致性協議
  • gossip消息同步協議

3.算法

這一節將主要介紹下分佈式系統中的經典的算法,比如常用於分區的一致性hash算法,適用於一致性的Quorum NWR算法,PBFT拜占庭容錯算法,區塊鏈中大量使用的工作量證明PoW算法等

3.1 一致性hash算法

一致性hash算法,主要應用於數據分片場景下,有效降低服務的新增、刪除對數據複製的影響

通過對數據項的鍵進行哈希處理映射其在環上的位置,然後順時針遍歷環以查找位置大於該項位置的第一個節點,將每個由鍵標識的數據分配給hash環中的一個節點

一致性hash算法

一致散列的主要優點是增量穩定性; 節點添加刪除,對整個集羣而言,僅影響其直接鄰居,其他節點不受影響。

注意:

  • redis集羣實現了一套hash槽機制,其核心思想與一致性hash比較相似

3.2 Quorum NWR算法

用來保證數據冗餘和最終一致性的投票算法,其主要數學思想來源於鴿巢原理

  • N 表示副本數,又叫做複製因子(Replication Factor)。也就是說,N 表示集羣中同一份數據有多少個副本
  • W,又稱寫一致性級別(Write Consistency Level),表示成功完成 W 個副本更新寫入,纔會視爲本次寫操作成功
  • R 又稱讀一致性級別(Read Consistency Level),表示讀取一個數據對象時需要讀 R 個副本, 纔會視爲本次讀操作成功

Quorum NWR算法要求每個數據拷貝對象 都可以投1票,而每一個操作的執行則需要獲取最小的讀票數,寫票數;通常來講寫票數W一般需要超過N/2,即我們通常說的得到半數以上的票才表示數據寫入成功

事實上當W=N、R=1時,即所謂的WARO(Write All Read One)。就是CAP理論中CP模型的場景

3.3 PBFT拜占庭算法

拜占庭算法主要針對的是分佈式場景下無響應,或者響應不可信的情況下的容錯問題,其核心分三段流程,如下

拜占庭算法

假設集羣節點數爲 N,f個故障節點(無響應)和f個問題節點(無響應或錯誤響應),f+1個正常節點,即 3f+1=n

  • 客戶端向主節點發起請求,主節點接受請求之後,向其他節點廣播 pre-prepare 消息
  • 節點接受pre-prepare消息之後,若同意請求,則向其他節點廣播 prepare 消息;
  • 當一個節點接受到2f+1個prepare新消息,則進入commit階段,並廣播commit消息
  • 當收到 2f+1 個 commit 消息後(包括自己),代表大多數節點已經進入 commit 階段,這一階段已經達成共識,於是節點就會執行請求,寫入數據

相比 Raft 算法完全不適應有人作惡的場景,PBFT 算法能容忍 (n 1)/3 個惡意節點 (也可以是故障節點)。另外,相比 PoW 算法,PBFT 的優點是不消耗算 力。PBFT 算法是O(n ^ 2) 的消息複雜度的算法,所以以及隨着消息數 的增加,網絡時延對系統運行的影響也會越大,這些都限制了運行 PBFT 算法的分佈式系統 的規模,也決定了 PBFT 算法適用於中小型分佈式系統

3.4 PoW算法

工作量證明 (Proof Of Work,簡稱 PoW),同樣應用於分佈式下的一致性場景,區別於前面的raft, pbft, paxos採用投票機制達成共識方案,pow採用工作量證明

客戶端需要做一定難度的工作才能得出一個結果,驗證方卻很容易通過結果來檢查出客戶端是不是做了相應的工作,通過消耗一定工作浪,增加消息僞造的成本,PoW以區塊鏈中廣泛應用而廣爲人知,下面以區塊鏈來簡單說一下PoW的算法應用場景

以BTC的轉賬爲例,A轉n個btc給B,如何保證不會同時將這n個幣轉給C?

  • A轉賬給B,交易信息記錄在一個區塊1中
  • A轉賬給C,交易信息被記錄在另一個區塊2中
  • 當區塊1被礦工成功提交到鏈上,並被大多數認可(通過校驗區塊鏈上的hash值驗證是否準確,而這個hash值體現的是礦工的工作量),此時尚未提交的區塊2則會被拋棄
  • 若區塊1被提交,區塊2也被提交,各自有部分人認可,就會導致分叉,區塊鏈中採用的是優選最長的鏈作爲主鏈,丟棄分叉的部分(這就屬於區塊鏈的知識點了,有興趣的小夥伴可以擴展下相關知識點,這裏就不展開了)

PoW的算法,主要應用在上面的區塊提交驗證,通過hash值計算來消耗算力,以此證明礦工確實有付出,得到多數認可的可以達成共識

3.5 一灰灰的小結

本節主要介紹了下當前分佈式下常見的算法,

  • 分區的一致性hash算法: 基於hash環,減少節點動態增加減少對整個集羣的影響;適用於數據分片的場景
  • 適用於一致性的Quorum NWR算法: 投票算法,定義如何就一個提案達成共識
  • PBFT拜占庭容錯算法: 適用於集羣中節點故障、或者不可信的場景
  • 區塊鏈中大量使用的工作量證明PoW算法: 通過工作量證明,認可節點的提交

4.技術思想

這一節的內容相對前面幾個而言,並不太容易進行清晰的分類;主要包含一些高質量的分佈式系統的實踐中,值得推薦的設計思想、技術細節

4.1 CQRS

Command Query Responsibility Segregation 即我們通俗理解的讀寫分離,其核心思想在於將兩類不同操作進行分離,在獨立的服務中實現

cqrs

用途在於將領域模型與查詢功能進行分離,讓一些複雜的查詢擺脫領域模型的限制,以更爲簡單的 DTO 形式展現查詢結果。同時分離了不同的數據存儲結構,讓開發者按照查詢的功能與要求更加自由的選擇數據存儲引擎

4.2 複製負載平衡服務

複製負載平衡服務(Replication Load Balancing Service, RLBS),可以簡單理解爲我們常說的負載均衡,多個相同的服務實例構建一個集羣,每個服務都可以響應請求,負載均衡器負責請求的分發到不同的實例上,常見的負載算法

算法 說明 特點
輪詢 請求按照順序依次分發給對應的服務器 優點簡單,缺點在於未考慮不同服務器的實際性能情況
加權輪詢 權重高的被分發更多的請求 優點:充分利用機器的性能
最少連接數 找連接數最少的服務器進行請求分發,若所有服務器相同的連接數,則找第一個選擇的 目的是讓優先讓空閒的機器響應請求
少連接數慢啓動時間 剛啓動的服務器,在一個時間段內,連接數是有限制且緩慢增加 避免剛上線導致大量的請求分發過來而超載
加權最少連接 平衡服務性能 + 最少連接數
基於代理的自適應負載均衡 載主機包含一個自適用邏輯用來定時監測服務器狀態和該服務器的權重
源地址哈希法 獲取客戶端的IP地址,通過哈希函映射到對應的服務器 相同的來源請求都轉發到相同的服務器上
隨機 隨機算法選擇一臺服務器
固定權重 最高權重只有在其他服務器的權重值都很低時才使用。然而,如果最高權重的服務器下降,則下一個最高優先級的服務器將爲客戶端服務 每個真實服務器的權重需要基於服務器優先級來配置
加權響應 服務器響應越小其權重越高,通常是基於心跳來判斷機器的快慢 心跳的響應並不一定非常準確反應服務情況

4.3 心跳機制

在分佈式環境裏中,如何判斷一個服務是否存活,當下最常見的方案就是心跳

比如raft算法中的leader向所有的follow發送心跳,表示自己還健在,避免發生新的選舉;

比如redis的哨兵機制,也是通過ping/pong的心跳來判斷節點是否下線,是否需要選新的主節點;

再比如我們日常的業務應用得健康監測,判斷服務是否正常

4.4 租約機制

租約就像一個鎖,但即使客戶端離開,它也能工作。客戶端請求有限期限的租約,之後租約到期。如果客戶端想要延長租約,它可以在租約到期之前續訂租約。

租約主要是了避免一個資源長久被某個對象持有,一旦對方掛了且不會主動釋放的問題;在實際的場景中,有兩個典型的應用

case1 分佈式鎖

業務獲取的分佈式鎖一般都有一個有效期,若有效期內沒有主動釋放,這個鎖依然會被釋放掉,其他業務也可以搶佔到這把鎖;因此對於持有鎖的業務方而言,若發現在到期前,業務邏輯還沒有處理完,則可以續約,讓自己繼續持有這把鎖

典型的實現方式是redisson的看門狗機制

case2 raft算法的任期

在raft算法中,每個leader都有一個任期,任期過後會重新選舉,而Leader爲了避免重新選舉,一般會定時發送心跳到Follower進行續約

4.5 Leader & Follow

這個比較好理解,上面很多系統都採用了這種方案,特別是在共識算法中,由領導者負責代表整個集羣做出決策,並將決策傳播到所有其他服務器

領導者選舉在服務器啓動時進行。每個服務器在啓動時都會啓動領導者選舉,並嘗試選舉領導者。除非選出領導者,否則系統不接受任何客戶端請求

4.6 Fencing

在領導者-追隨者模式中,當領導者失敗時,不可能確定領導者已停止工作,如慢速網絡或網絡分區可能會觸發新的領導者選舉,即使前一個領導者仍在運行並認爲它仍然是活動的領導者

Fencint是指在以前處於活動狀態的領導者周圍設置圍欄,使其無法訪問集羣資源,從而停止爲任何讀/寫請求提供服務

  • 資源屏蔽:系統會阻止以前處於活動狀態的領導者訪問執行基本任務所需的資源。
  • 節點屏蔽:系統會阻止以前處於活動狀態的領導者訪問所有資源。執行此操作的常見方法是關閉節點電源或重置節點。

4.7 Quorum法定人數

法定人數,常見於選舉、共識算法中,當超過Quorum的節點數確認之後,才表示這個提案通過(數據更新成功),通常這個法定人數爲 = 半數節點 + 1

4.8 High-Water mark高水位線

高水位線,跟蹤Leader(領導者)上的最後一個日誌條目,且該條目已成功複製到>quorum(法定人數)的Follow(跟誰者),即表示這個日誌被整個集羣接受

日誌中此條目的索引稱爲高水位線索引。領導者僅公開到高水位線索引的數據。

如Kafka:爲了處理非可重複讀取並確保數據一致性,Kafka broker會跟蹤高水位線,這是特定分區的最大偏移量。使用者只能看到高水位線之前的消息。

4.9 Phi 累計故障檢測

Phi Accrual Failure Detection,使用歷史檢測信號信息使閾值自適應

通用的應計故障檢測器不會判斷服務器是否處於活動狀態,而是輸出有關服務器的可疑級別。

如Cassandra(Facebook開源的分佈式NoSql數據庫)使用 Phi 應計故障檢測器算法來確定羣集中節點的狀態

4.10 Write-ahead Log預寫日誌

預寫日誌記錄是解決操作系統中文件系統不一致的問題的高級解決方案,當我們提交寫到操作系統的文件緩存,此時業務會認爲已經提交成功;但是在文件緩存與實際寫盤之間會有一個時間差,若此時機器宕機,會導致緩存中的數據丟失,從而導致完整性缺失

爲了解決這個問題,如mysql,es等都採用了預寫日誌的機制來避免這個問題

MySql:

  • 事務提交的流程中,先寫redolog precommit, 然後寫binlog,最後再redolog commit;當redolog記錄成功之後,才表示事務執行成功;
  • 因此當出現上面的宕機恢復時,則會加載redologo,然後重放對應的命令,來恢復未持久化的數據

ElasticSearch:

  • 在內存中數據生成段寫到操作系統文件緩存前,會先寫事務日誌,出現異常時,也是從事務日誌進行恢復

4.11 分段日誌

將日誌拆分爲多個較小的文件,而不是單個大文件,以便於操作。

單個日誌文件在啓動時讀取時可能會增長併成爲性能瓶頸。較舊的日誌會定期清理,並且很難對單個大文件執行清理操作。

單個日誌拆分爲多個段。日誌文件在指定的大小限制後滾動。使用日誌分段,需要有一種將邏輯日誌偏移量(或日誌序列號)映射到日誌段文件的簡單方法。

這個其實也非常常見,比如我們實際業務應用配置的log,一般都是按天、固定大小進行拆分,並不會把所有的日誌都放在一個日誌文件中

再比如es的分段存儲,一個段就是一個小的存儲文件

4.12 checksum校驗

在分佈式系統中,在組件之間移動數據時,從節點獲取的數據可能會損壞。

計算校驗和並將其與數據一起存儲。

要計算校驗和,請使用 MD5、SHA-1、SHA-256 或 SHA-512 等加密哈希函數。哈希函數獲取輸入數據並生成固定長度的字符串(包含字母和數字);此字符串稱爲校驗和。

當系統存儲某些數據時,它會計算數據的校驗和,並將校驗和與數據一起存儲。當客戶端檢索數據時,它會驗證從服務器接收的數據是否與存儲的校驗和匹配。如果沒有,則客戶端可以選擇從另一個副本檢索該數據。

HDFS和Chubby將每個文件的校驗和與數據一起存儲。

4.13 一灰灰的小結

這一節很多內容來自下面這篇博文,推薦有興趣的小夥伴查看原文

這一節主要簡單的介紹了下分佈式系統中應用到的一些技術方案,如有對其中某個技術有興趣的小夥伴可以留言,後續會逐一進行補全

5.分佈式系統解決方案

最後再介紹一些常見的分佈式業務場景及對應的解決方案,比如全局唯一的遞增ID-雪花算法,分佈式系統的資源搶佔-分佈式鎖,分佈式事務-2pc/3pc/tcc ,分佈式緩存等

5.1 緩存

緩存實際上並不是分佈式獨有的,這裏把它加進來,主要是因爲實在是應用得太廣了,無論是應用服務、基礎軟件工具還是操作系統,大量都可以見到緩存的身影

緩存的核心思想在於: 藉助更高效的IO方式,來替代代價昂貴的IO方式

如:

  • redis的性能高於mysql
  • 如內存的讀寫,遠高於磁盤IO,文件IO
  • 磁盤順序讀寫 > 隨機讀寫

用好緩存可以有效提高應用性能,下面以一個普通的java前臺應用爲例說明

  • JVM緩存 -> 分佈式緩存(redis/memcache) -> mysql緩存 -> 操作系統文件緩存 -> 磁盤文件

緩存面臨的核心問題,則在於

  • 一致性問題:緩存與db的一致性如何保障(相信大家都聽說過或者實際處理過這種問題)
  • 數據完整性:比如常見的先寫緩存,異步刷新到磁盤,那麼緩存到磁盤刷新這段時間內,若宕機導致數據丟失怎麼辦?
    • TIP: 上面這個問題可以參考mysql的redolog

5.2 全局唯一ID

在傳統的單體架構中,業務id基本上是依賴於數據庫的自增id來處理;當我們進入分佈式場景時,如我們常說的分庫分表時,就需要我們來考慮如何實現全局唯一的業務id了,避免出現在分表中出現衝突

全局唯一ID解決方案:

  • uuid
  • 數據庫自增id表
  • redis原子自增命令
  • 雪花算法 (原生的,擴展的百度UidGenerator, 美團Leaf等)
  • Mist 薄霧算法

5.3 分佈式鎖

常用於分佈式系統中資源控制,只有持有鎖的才能繼續操作,確保同一時刻只會有一個實例訪問這個資源

常見的分佈式鎖有

5.4 分佈式事務

事務表示一組操作,要麼全部成功,要麼全部不成功;單機事務通常說的是數據庫的事務;而分佈式事務,則可以簡單理解爲多個數據庫的操作,要麼同時成功,要麼全部不成功

更確切一點的說法,分佈式事務主要是要求事務的參與方,可能涉及到多個系統、多個數據資源,要求它們的操作要麼都成功,要麼都回滾;

一個簡單的例子描述下分佈式事務場景:

下單扣庫存

  • 用戶下單,付錢
  • 此時訂單服務,會生成訂單信息
  • 支付網關,會記錄付款信息,成功or失敗
  • 庫存服務,扣減對應的庫存

一個下單支付操作,涉及到三個系統,而分佈式事務則是要求,若支付成功,則上面三個系統都應該更新成功;若有一個操作失敗,如支付失敗,則已經扣了庫存的要回滾(還庫存),生成的訂單信息回滾(刪掉--注:現實中並不會去刪除訂單信息,這裏只是用於說明分佈式事務,請勿帶入實際的實現方案)

分佈式事務實現方案:

  • 2PC: 前面說的兩階段提交,就是實現分佈式事務的一個經典解決方案
  • 3PC: 三階段提交
  • TCC:補償事務,簡單理解爲應用層面的2PC
  • SAGA事務
  • 本地消息表
  • MQ事務方案

5.5 分佈式任務

分佈式任務相比於我們常說單機的定時任務而言,可以簡單的理解爲多臺實例上的定時任務,從應用場景來說,可以區分兩種

  • 互斥性的分佈式任務
    • 即同一時刻,集羣內只能有一個實例執行這個任務
  • 並存式的分佈式任務
    • 同一時刻,所有的實例都可以執行這個任務
    • 續考慮如何避免多個任務操作相同的資源

分佈式任務實現方案:

  • Quartz Cluster
  • XXL-Job
  • Elastic-Job
  • 自研:
    • 資源分片策略
    • 分佈式鎖控制的唯一任務執行策略

5.6 分佈式Session

Session一般叫做會話,Session技術是http狀態保持在服務端的解決方案,它是通過服務器來保持狀態的。我們可以把客戶端瀏覽器與服務器之間一系列交互的動作稱爲一個 Session。是服務器端爲客戶端所開闢的存儲空間,在其中保存的信息就是用於保持狀態。因此,session是解決http協議無狀態問題的服務端解決方案,它能讓客戶端和服務端一系列交互動作變成一個完整的事務。

單機基於session/cookie來實現用戶認證,那麼在分佈式系統的多實例之間,如何驗證用戶身份呢?這個就是我們說的分佈式session

分佈式session實現方案:

  • session stick:客戶端每次請求都轉發到同一臺服務器(如基於ip的hash路由轉發策略)
  • session複製: session生成之後,主動同步給其他服務器
  • session集中保存:用戶信息統一存儲,每次需要時統一從這裏取(也就是常說的redis實現分佈式session方案)
  • cookie: 使用客戶端cookie存儲session數據,每次請求時攜帶這個

5.7 分佈式鏈路追蹤

分佈式鏈路追蹤也可以叫做全鏈路追中,而它可以說是每個開發者的福音,通常指的是一次前端的請求,將這個請求過程中,所有涉及到的系統、鏈路都串聯起來,可以清晰的知道這一次請求中,調用了哪些服務,有哪些IO交互,瓶頸點在哪裏,什麼地方拋出了異常

當前主流的全鏈路方案大多是基於google的Dapper 論文實現的

全鏈路實現方案

  • zipkin
  • pinpoint
  • SkyWalking
  • CAT
  • jaeger

5.8 布隆過濾器

Bloom過濾器是一種節省空間的概率數據結構,用於測試元素是否爲某集合的成員。

布隆過濾器由一個長度爲 m 比特的位數組(bit array)與 k 個哈希函數(hash function)組成的數據結構。

原理是當一個元素被加入集合時,通過 K 個散列函數將這個元素映射成一個位數組中的 K 個點,把它們置爲 1。

檢索時,我們只要看看這些點是不是都是 1 就大約知道集合中有沒有它了,也就是說,如果這些點有任何一個 0 ,則被檢元素一定不在;如果都是 1 ,則被檢元素很可能在。

關於布隆過濾器,請牢記一點

  • 判定命中的,不一定真的命中
  • 判定沒有命中的,則一定不在裏面

布隆過濾器

常見的應用場景,如

  • 防止緩存穿透
  • 爬蟲時重複檢測

5.9 一灰灰的小結

分佈式系統的解決方案當然不侷限於上面幾種,比如分佈式存儲、分佈式計算等也屬於常見的場景,當然在我們實際的業務支持過程中,不太可能需要讓我們自己來支撐這種大活;而上面提到的幾個點,基本上或多或少會與我們日常工作相關,這裏列出來當然是好爲了後續的詳情做鋪墊

6.一灰灰的總結

6.1 綜述

這是一篇概括性的綜述類文章,可能並沒有很多的乾貨,當然也限於“一灰灰”我個人的能力,上面的總結可能並不準確,如有發現,請不吝賜教

全文總結如下

常見的分佈式架構設計方案:

  • 主備,主從,多主多從,普通無中心集羣,數據分片架構

分佈式系統中的理論基石:

  • CAP, BASE, PACELEC
  • 共識算法:paxos, raft, zab
  • 一致性協議:2pc, 3pc
  • 數據同步:gossip

分佈式系統中的算法:

  • 分區的一致性hash算法: 基於hash環,減少節點動態增加減少對整個集羣的影響;適用於數據分片的場景
  • 適用於一致性的Quorum NWR算法: 投票算法,定義如何就一個提案達成共識
  • PBFT拜占庭容錯算法: 適用於集羣中節點故障、或者不可信的場景
  • 區塊鏈中大量使用的工作量證明PoW算法: 通過工作量證明,認可節點的提交

分佈式系統解決方案:

  • 分佈式緩存
  • 全局唯一ID
  • 分佈式鎖
  • 分佈式事務
  • 分佈式任務
  • 分佈式會話
  • 分佈式鏈路追蹤
  • 布隆過濾器

6.2 題外話

最後總結一下這篇耗時兩週寫完的“心血鉅作”(有點自吹了哈),準備這篇文章確實花了很大的精力,首先我個人對於分佈式這塊的理解並不能算深刻,其次分佈式這塊的理論+實踐知識特別多,而且並不是特別容易上手理解,在輸出這篇文章的同時,遇到一些疑問點我也會去查閱相關資料去確認,整個過程並不算特別順利; 那麼爲什麼還要去做這個事情呢?

  1. 鹹魚太久了,想做一些有意思的東西,活躍一下大腦
  2. 準備依託於《分佈式專欄》來將自己的知識體系進行歸納彙總,讓零散分佈在大腦中的知識點能有一個脈絡串聯起來
  3. 不想做架構的碼農不是好碼農,而想成爲一個好的架構,當然得做一些基礎準備,向業務精品學習取經
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章