【轉載】分佈式事務一致性機制：兩階段提交與三階段提交

一、事務的ACID

事務是保證數據庫從一個一致性的狀態永久地變成另外一個一致性狀態的根本，其中，ACID是事務的基本特性。

A是Atomicity，原子性。一個事務往往涉及到許多的子操作，原子性則保證這些子操作要麼都做，要麼都不做，而不至於出現事務的部分操作成功，而另外一部分操作沒有成功。如果事務在執行的過程中發生錯誤，那麼數據庫將回滾到事務發生之前的狀態。比如銀行的轉賬服務，這個事務的最終結果一定是：某個賬戶的餘額增加了x，而另外一個賬戶的餘額減少了x，或者兩個賬戶的餘額未發生變化。而不會出現其他情況。

C是Consistency，一致性。一致性是指事務發生前和發生以後，都不會破壞數據庫的約束關係，保證了數據庫元素的正確性、有效性和完整性。這種約束關係可以是數據庫內部的約束，比如數據庫元素的值必須在一定的範圍內，也可以是應用帶來的約束，比如轉賬以後銀行賬戶的餘額不能爲負數。

I是Isolation，隔離性。一個事務的操作在未提交以前，是不會被並行發生的其他事務訪問到的。也就是說，數據庫操作不會看到某個事務的中間操作結果，比如轉賬過程中，用戶是不能查詢到一個賬戶餘額減少了，而另外一個賬戶餘額未發生變化的情況。

D是Durability，持久性。事務完成以後，它對數據庫的影響是永久性的，即使在數據庫系統發生宕機或者其他故障的情況下，這種影響也會得到保持。

二、數據庫事務性具有ACID4個特性，那麼在分佈式系統中是怎麼保證這4個特性的呢？我們先來看看原子性的實現二階段提交協議（2PC）.

在分佈式系統中著有 CAP 理論，該理論由加州大學伯克利分校的 Eric Brewer 教授提出，闡述了在一個分佈式系統中不可能同時滿足 一致性（Consistency） 、 可用性（Availability） ，以及 分區容錯性（Partition tolerance） 。

C：一致性

在分佈式系統中數據往往存在多個副本，一致性描述的是這些副本中的數據在內容和組織上的一致。

A：可用性

可用性描述了系統對用戶的服務能力，所謂可用是指在用戶容忍的時間範圍內返回用戶期望的結果。

P：分區容錯性

分佈式系統通常由多個節點構成，由於網絡是不可靠的，所以存在分佈式集羣中的節點因爲網絡通信故障導致被孤立成一個個小集羣的可能性，即網絡分區，分區容錯性要求在出現網絡分區時系統仍然能夠對外提供一致性的可用服務。

對於一個分佈式系統而言，我們要始終假設網絡是不可靠的，因此分區容錯性是對一個分佈式系統最基本的要求，我們的切入點更多的是嘗試在可用性和一致性之間尋找一個平衡點，但這也並非要求我們在系統設計時一直建立在網絡出現分區的前提之上，然後對一致性和可用性在選擇時非此即彼。

Eric Brewer 在 2012 年就曾指出 CAP 理論證明不能同時滿足一致性、可用性，以及分區容錯性的觀點在實際系統設計指導上存在一定的誤導性 。傳統對於 CAP 理論的理解認爲在設計分佈式系統時必須滿足 P，然後在 C 和 A 之間進行取捨，這是片面的，實際中網絡出現分區的可能性還是比較小的，尤其是目前網絡環境正在變得越來越好，甚至許多系統都擁有專線的支撐，所以在網絡未出現分區時，還是應該兼顧 A 和 C；另外就是對於一致性、可用性，以及分區容錯性三者在度量上也應該有一個評定範圍，最簡單的以可用性來說，當有多少佔比請求出現響應超時纔可以被認爲是不滿足可用性，而不是一出現超時就認爲是不可用的；最後我們需要考慮的一點就是分佈式系統一般都是一個比較大且複雜的系統，我們應該從更小的粒度上對各個子系統進行評估和設計，而不是簡單的從整體上武斷決策。

讓分佈式集羣始終對外提供可用的一致性服務一直是富有挑戰和趣味的一項任務。暫且拋開可用性，拿一致性來說，對於關係型數據庫我們通常利用事務來保證數據的強一致性，當我們的數據量越來越大，大到單庫已經無法承擔時，我們不得不採取分庫分表的策略對數據庫實現水平拆分，構建分佈式數據庫集羣，這樣可以將一個數據庫的壓力分攤到多個數據庫，極大的提升了數據庫的存儲和響應能力，但是拆分之後也爲我們使用數據庫帶來了許多的限制，比如主鍵的全局唯一、聯表查詢、數據聚合等等，另外一個相當棘手的問題就是數據庫的事務由原先的單庫事務變成了現在的分佈式事務。

分佈式事務的實現並不是無解的，比如下文要展開的兩階段提交（2PC：Two-Phrase Commit）和三階段提交（3PC：Three-Phrase Commit）都給我們提供了思路，但是如何保證數據的強一致性，並對外提供高可用的服務還是相當棘手的，因此很多分佈式系統對於數據強一致性都敬而遠之。

兩階段提交協議（2PC：Two-Phrase Commit）

兩階段提交協議的目標在於在分佈式系統中保證數據的一致性，許多分佈式系統採用該協議提供對分佈式事務的支持。顧名思義，該協議將一個分佈式的事務過程拆分成兩個階段： 投票階段 和 事務提交階段 。爲了讓整個數據庫集羣能夠正常的運行，該協議指定了一個“協調者”單點，用於協調整個數據庫集羣的運行，爲了簡化描述，我們將數據庫裏面的各個節點稱爲“參與者”，三階段提交協議中同樣包含“協調者”和“參與者”這兩個定義。

第一階段：投票階段

該階段的主要目的在於打探數據庫集羣中的各個參與者是否能夠正常的執行事務，具體步驟如下：

協調者向所有的參與者發送事務執行請求，並等待參與者反饋事務執行結果。

事務參與者收到請求之後，執行事務但不提交，並記錄事務日誌。

參與者將自己事務執行情況反饋給協調者，同時阻塞等待協調者的後續指令。

第二階段：事務提交階段

在經過第一階段協調者的詢盤之後，各個參與者會回覆自己事務的執行情況，這時候存在三種可能性：

所有的參與者都回復能夠正常執行事務
一個或多個參與者回覆事務執行失敗
協調者等待超時

對於第一種情況，協調者將向所有的參與者發出提交事務的通知，具體步驟如下：

協調者向各個參與者發送 commit 通知，請求提交事務。

參與者收到事務提交通知之後，執行 commit 操作，然後釋放佔有的資源。

參與者向協調者返回事務 commit 結果信息。

對於第二、三種情況，協調者均認爲參與者無法成功執行事務，爲了整個集羣數據的一致性，所以要向各個參與者發送事務回滾通知，具體步驟如下：

協調者向各個參與者發送事務 rollback 通知，請求回滾事務。

參與者收到事務回滾通知之後，執行 rollback 操作，然後釋放佔有的資源。

參與者向協調者返回事務 rollback 結果信息。

兩階段提交協議解決的是分佈式數據庫數據強一致性問題，實際應用中更多的是用來解決事務操作的原子性，下圖描繪了協調者與參與者的狀態轉換。站在協調者的角度，在發起投票之後就進入了 WAIT 狀態，等待所有參與者回覆各自事務執行狀態，並在收到所有參與者的回覆後決策下一步是發送 commit 或 rollback 信息。站在參與者的角度，當回覆完協調者的投票請求之後便進入 READY 狀態（能夠正常執行事務），接下去就是等待協調者最終的決策通知，一旦收到通知便可依據決策執行 commit 或 rollback 操作。

兩階段提交協議原理簡單、易於實現，但是缺點也是顯而易見的，主要缺點如下：

單點問題

協調者在整個兩階段提交過程中扮演着舉足輕重的作用，一旦協調者所在服務器宕機，就會影響整個數據庫集羣的正常運行，比如在第二階段中，如果協調者因爲故障不能正常發送事務提交或回滾通知，那麼參與者們將一直處於阻塞狀態，整個數據庫集羣將無法提供服務。

同步阻塞

兩階段提交執行過程中，所有的參與者都需要聽從協調者的統一調度，期間處於阻塞狀態而不能從事其他操作，這樣效率極其低下。

數據不一致性

兩階段提交協議雖然是分佈式數據強一致性所設計，但仍然存在數據不一致性的可能性，比如在第二階段中，假設協調者發出了事務 commit 通知，但是因爲網絡問題該通知僅被一部分參與者所收到並執行了commit 操作，其餘的參與者則因爲沒有收到通知一直處於阻塞狀態，這時候就產生了數據的不一致性。

針對上述問題可以引入 超時機制 和 互詢機制 在很大程度上予以解決。對於協調者來說如果在指定時間內沒有收到所有參與者的應答，則可以自動退出 WAIT 狀態，並向所有參與者發送 rollback 通知。對於參與者來說如果位於 READY 狀態，但是在指定時間內沒有收到協調者的第二階段通知，則不能武斷地執行 rollback 操作，因爲協調者可能發送的是 commit 通知，這個時候執行 rollback 就會導致數據不一致。此時，我們可以介入互詢機制，讓參與者 A 去詢問其他參與者 B 的執行情況，如果 B 執行了 rollback 或 commit 操作，則 A 可以大膽的與 B 執行相同的操作；如果 B 此時還沒有到達 READY 狀態，則可以推斷出協調者發出的肯定是 rollback 通知；如果 B 同樣位於 READY 狀態，則 A 可以繼續詢問另外的參與者，只有當所有的參與者都位於 READY 狀態時，此時兩階段提交協議無法處理，將陷入長時間的阻塞狀態。

三階段提交協議（3PC：Three-Phrase Commit）

針對兩階段提交存在的問題，三階段提交協議通過引入一個 “預詢盤” 階段，以及超時策略來減少整個集羣的阻塞時間，提升系統性能。三階段提交的三個階段分別爲：can_commit，pre_commit，do_commit。

第一階段：can_commit

該階段協調者會去詢問各個參與者是否能夠正常執行事務，參與者根據自身情況回覆一個預估值，相對於真正的執行事務，這個過程是輕量的，具體步驟如下：

協調者向各個參與者發送事務詢問通知，詢問是否可以執行事務操作，並等待回覆。

各個參與者依據自身狀況回覆一個預估值，如果預估自己能夠正常執行事務就返回確定信息，並進入預備狀態，否則返回否定信息。

第二階段：pre_commit

本階段協調者會根據第一階段的詢盤結果採取相應操作，詢盤結果主要有三種：

所有的參與者都返回確定信息
一個或多個參與者返回否定信息
協調者等待超時

針對第一種情況，協調者會向所有參與者發送事務執行請求，具體步驟如下：

協調者向所有的事務參與者發送事務執行通知。

參與者收到通知後，執行事務但不提交。

參與者將事務執行情況返回給客戶端。

在上述步驟中，如果參與者等待超時，則會中斷事務。 針對第二、三種情況，協調者認爲事務無法正常執行，於是向各個參與者發出 abort 通知，請求退出預備狀態，具體步驟如下：

協調者向所有事務參與者發送 abort 通知。

參與者收到通知後中斷事務。

第三階段：do_commit

如果第二階段事務未中斷，那麼本階段協調者將會依據事務執行返回的結果來決定提交或回滾事務，分爲三種情況：

所有的參與者都能正常執行事務
一個或多個參與者執行事務失敗
協調者等待超時

針對第一種情況，協調者向各個參與者發起事務提交請求，具體步驟如下：

協調者向所有參與者發送事務 commit 通知。

所有參與者在收到通知之後執行 commit 操作，並釋放佔有的資源。

參與者向協調者反饋事務提交結果。

針對第二、三種情況，協調者認爲事務無法成功執行，於是向各個參與者發送事務回滾請求，具體步驟如下：

協調者向所有參與者發送事務 rollback 通知。

所有參與者在收到通知之後執行 rollback 操作，並釋放佔有的資源。

參與者向協調者反饋事務回滾結果。

在本階段如果因爲協調者或網絡問題，導致參與者遲遲不能收到來自協調者的 commit 或 rollback 請求，那麼參與者將不會如兩階段提交中那樣陷入阻塞，而是等待超時後繼續 commit，相對於兩階段提交雖然降低了同步阻塞，但仍然無法完全避免數據的不一致。

兩階段提交協議中所存在的長時間阻塞狀態發生的機率還是非常低的，所以雖然三階段提交協議相對於兩階段提交協議對於數據強一致性更有保障，但是因爲效率問題，兩階段提交協議在實際系統中反而更加受寵。在分佈式數據庫中，如果期望達到數據的強一致性，則服務基本沒有可用性可言，這也是爲什麼許多分佈式數據庫提供了跨庫事務，但也只是個擺設的原因，在實際應用中我們追求的更多是數據的弱一致性。

2PC與3PC的區別

相對於2PC，3PC主要解決的單點故障問題，並減少阻塞，因爲一旦參與者無法及時收到來自協調者的信息之後，他會默認執行commit。而不會一直持有事務資源並處於阻塞狀態。但是這種機制也會導致數據一致性問題，因爲，由於網絡原因，協調者發送的abort響應沒有及時被參與者接收到，那麼參與者在等待超時之後執行了commit操作。這樣就和其他接到abort命令並執行回滾的參與者之間存在數據不一致的情況。

瞭解了2PC和3PC之後，我們可以發現，無論是二階段提交還是三階段提交都無法徹底解決分佈式的一致性問題。Google Chubby的作者Mike Burrows說過， there is only one consensus protocol, and that’s Paxos” – all other approaches are just broken versions of Paxos. 意即世上只有一種一致性算法，那就是Paxos，所有其他一致性算法都是Paxos算法的不完整版。後面的文章會介紹這個公認爲難於理解但是行之有效的Paxos算法。

【轉載】分佈式事務一致性機制：兩階段提交與三階段提交

兩階段提交協議（2PC：Two-Phrase Commit）

三階段提交協議（3PC：Three-Phrase Commit）

2PC與3PC的區別

【轉載】漫話：如何給女朋友解釋什麼是Linux的五種IO模型

【轉載】IO多路複用之select、poll、epoll詳解

【轉載】快照原理-差分快照（COW&ROW）

【分享】盤IO在隨機寫與順序寫的差異

一文讀懂中國曆代龍紋演變（推薦收藏）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結