終於有人把“分佈式事務”說清楚了！(轉載）

這篇博文是轉載了其他的博文，但是沒有原鏈接，所以厚着臉皮選擇了原創，不過我已經在標題中標明是轉載，望見諒

分佈式事務

高可用是指系統無中斷的執行功能的能力，代表了系統的可用程度，是進行系統設計時必須要遵守的準則之一。

而高可用的實現方案，無外乎就是冗餘，就存儲的高可用而言，問題不在於如何進行數據備份，而在於如何規避數據不一致對業務造成的影響。

對於分佈式系統而言，要保證分佈式系統中的數據一致性就需要一種方案，可以保證數據在子系統中始終保持一致，避免業務出現問題。

這種實現方案就叫做分佈式事務，要麼一起成功，要麼一起失敗，必須是一個整體性的事務。

理論基礎

在講解具體方案之前，有必要了解一下分佈式中數據設計需要遵循的理論基礎，CAP 理論和 BASE 理論，爲後面的實踐鋪平道路。

CAP理論

CAP，Consistency Availability Partition tolerance 的簡寫：

Consistency：一致性，對某個客戶端來說，讀操作能夠返回最新的寫操作結果。
Availability：可用性，非故障節點在合理的時間內返回合理的響應。
Partition tolerance：分區容錯性，當出現網絡分區後，系統能夠繼續提供服務，你知道什麼是網絡分區嗎？

因爲分佈式系統中系統肯定部署在多臺機器上，無法保證網絡做到 100% 的可靠，所以網絡分區一定存在，即 P 一定存在。

在出現網絡分區後，就出現了可用性和一致性的問題，我們必須要在這兩者之間進行取捨，因此就有了兩種架構：

CP 架構
AP 架構

①CP 架構

當網絡分區出現後，爲了保證一致性，就必須拒接請求，否則無法保證一致性：

當沒有出網絡分區時，系統 A 與系統 B 的數據一致，X=1。
將系統 A 的 X 修改爲 2，X=2。
當出現網絡分區後，系統 A 與系統 B 之間的數據同步數據失敗，系統 B 的 X=1。
當客戶端請求系統 B 時，爲了保證一致性，此時系統 B 應拒絕服務請求，返回錯誤碼或錯誤信息。

上面這種方式就違背了可用性的要求，只滿足一致性和分區容錯，即 CP， CAP 理論是忽略網絡延遲，從系統 A 同步數據到系統 B 的網絡延遲是忽略的。

CP 架構保證了客戶端在獲取數據時一定是最近的寫操作，或者獲取到異常信息，絕不會出現數據不一致的情況。

②AP 架構

當網絡分區出現後，爲了保證可用性，系統 B 可以返回舊值，保證系統的可用性：

當沒有出網絡分區時，系統 A 與系統 B 的數據一致，X=1。
將系統 A 的 X 修改爲 2，X=2。
當出現網絡分區後，系統 A 與系統 B 之間的數據同步數據失敗，系統 B 的 X=1。
當客戶端請求系統 B 時，爲了保證可用性，此時系統 B 應返回舊值，X=1。

上面這種方式就違背了一致性的要求，只滿足可用性和分區容錯，即 AP， AP 架構保證了客戶端在獲取數據時無論返回的是最新值還是舊值，系統一定是可用的。

CAP 理論關注粒度是數據，而不是整體系統設計的策略。

BASE理論

BASE 理論指的是基本可用 Basically Available，軟狀態 Soft State，最終一致性 Eventual Consistency，核心思想是即便無法做到強一致性，但應該採用適合的方式保證最終一致性。

BASE，Basically Available Soft State Eventual Consistency 的簡寫：

BA：Basically Available 基本可用，分佈式系統在出現故障的時候，允許損失部分可用性，即保證核心可用。
S：Soft State 軟狀態，允許系統存在中間狀態，而該中間狀態不會影響系統整體可用性。
E：Consistency 最終一致性，系統中的所有數據副本經過一定時間後，最終能夠達到一致的狀態。

BASE 理論本質上是對 CAP 理論的延伸，是對 CAP 中 AP 方案的一個補充。

分佈式事務協議

X/Open XA 協議

XA 是一個分佈式事務協議，由 Tuxedo 提出。XA 規範主要定義了（全局）事務管理器（Transaction Manager）和（局部）資源管理器（Resource Manager）之間的接口。

XA 接口是雙向的系統接口，在事務管理器（Transaction Manager）以及一個或多個資源管理器（Resource Manager）之間形成通信橋樑。

XA 協議採用兩階段提交方式來管理分佈式事務。XA 接口提供資源管理器與事務管理器之間進行通信的標準接口。

2PC：二階段提交協議

二階段提交（Two-phase Commit），是指，爲了使基於分佈式系統架構下的所有節點在進行事務提交時保持一致性而設計的一種算法（Algorithm）。通常，二階段提交也被稱爲是一種協議（Protocol）。

在分佈式系統中，每個節點雖然可以知曉自己的操作是成功或者失敗，卻無法知道其他節點的操作是成功或失敗。

當一個事務跨越多個節點時，爲了保持事務的 ACID 特性，需要引入一個作爲協調者的組件來統一掌控所有節點（稱作參與者）的操作結果並最終指示這些節點是否要把操作結果進行真正的提交（比如將更新後的數據寫入磁盤等等）。

因此，二階段提交的算法思路可以概括爲：參與者將操作成敗通知協調者，再由協調者根據所有參與者的反饋情報決定各參與者是否要提交操作還是中止操作。

二階段提交算法的成立基於以下假設：

該分佈式系統中，存在一個節點作爲協調者（Coordinator），其他節點作爲參與者（Cohorts）。且節點之間可以進行網絡通信。
所有節點都採用預寫式日誌，且日誌被寫入後即被保持在可靠的存儲設備上，即使節點損壞不會導致日誌數據的消失。
所有節點不會永久性損壞，即使損壞後仍然可以恢復。

二階段提交分爲兩階段：

投票階段 Prepares

投票階段 Prepares：
- 協調者向所有參與者詢問是否可以執行提交操作，並開始等待各參與者的響應。
- 參與者執行事務操作，如果執行成功就返回 Yes 響應，如果執行失敗就返回 No 響應。
- 如果協調者接受參與者響應超時，也會認爲執行事務操作失敗。
提交階段 Commit

提交階段 Commit：
如果第一階段彙總所有參與者都返回 Yes 響應，協調者向所有參與者發出提交請求，所有參與者提交事務。
如果第一階段中有一個或者多個參與者返回 No 響應，協調者向所有參與者發出回滾請求，所有參與者進行回滾操作。

二階段提交優點：儘量保證了數據的強一致，但不是 100% 一致。

3PC：三階段提交協議

三階段提交（Three-phase commit），是爲解決兩階段提交協議的缺點而設計的。與兩階段提交不同的是，三階段提交是“非阻塞”協議。

三階段提交在兩階段提交的第一階段與第二階段之間插入了一個準備階段，使得原先在兩階段提交中，參與者在投票之後，由於協調者發生崩潰或錯誤，而導致參與者處於無法知曉是否提交或者中止的“不確定狀態”所產生的可能相當長的延時的問題得以解決。

三階段提交的三個階段：

CanCommit
PreCommit
DoCommit

①詢問階段：CanCommit

協調者向參與者發送 Commit 請求，參與者如果可以提交就返回 Yes 響應，否則返回 No 響應。

②準備階段：PreCommit

協調者根據參與者在詢問階段的響應判斷是否執行事務還是中斷事務：

如果所有參與者都返回 Yes，則執行事務。
如果參與者有一個或多個參與者返回 No 或者超時，則中斷事務。

參與者執行完操作之後返回 ACK 響應，同時開始等待最終指令。

③提交階段：DoCommit

協調者根據參與者在準備階段的響應判斷是否執行事務還是中斷事務：

如果所有參與者都返回正確的 ACK 響應，則提交事務。
如果參與者有一個或多個參與者收到錯誤的 ACK 響應或者超時，則中斷事務。
如果參與者無法及時接收到來自協調者的提交或者中斷事務請求時，會在等待超時之後，會繼續進行事務提交。

協調者收到所有參與者的 ACK 響應，完成事務。

解決二階段提交時的問題：在三階段提交中，如果在第三階段協調者發送提交請求之後掛掉，並且唯一的接受的參與者執行提交操作之後也掛掉了，這時協調者通過選舉協議產生了新的協調者。

在二階段提交時存在的問題就是新的協調者不確定已經執行過事務的參與者是執行的提交事務還是中斷事務。

但是在三階段提交時，肯定得到了第二階段的再次確認，那麼第二階段必然是已經正確的執行了事務操作，只等待提交事務了。

所以新的協調者可以從第二階段中分析出應該執行的操作，進行提交或者中斷事務操作，這樣即使掛掉的參與者恢復過來，數據也是一致的。

所以，三階段提交解決了二階段提交中存在的由於協調者和參與者同時掛掉可能導致的數據一致性問題和單點故障問題，並減少阻塞。

因爲一旦參與者無法及時收到來自協調者的信息之後，他會默認執行提交事務，而不會一直持有事務資源並處於阻塞狀態。

三階段提交的問題：在提交階段如果發送的是中斷事務請求，但是由於網絡問題，導致部分參與者沒有接到請求。

那麼參與者會在等待超時之後執行提交事務操作，這樣這些由於網絡問題導致提交事務的參與者的數據就與接受到中斷事務請求的參與者存在數據不一致的問題。

所以無論是 2PC 還是 3PC 都不能保證分佈式系統中的數據 100% 一致。

解決方案

舉個栗子：在電商網站中，用戶對商品進行下單，需要在訂單表中創建一條訂單數據，同時需要在庫存表中修改當前商品的剩餘庫存數量。

兩步操作一個添加，一個修改，我們一定要保證這兩步操作一定同時操作成功或失敗，否則業務就會出現問題。

建立時：業務量不大，用戶少，系統只是一個單體架構，訂單表與庫存表都在一個數據庫中，這時可以使用 MySQL 的本地事務保證數據一致性。

發展期：業務發展迅速，用戶量變多，單數據已經出現了性能瓶頸，按照業務緯度進行分庫，分爲訂單庫和庫存庫，由於跨庫跨機器，MySQL 的本地事務不能再保證訂單庫和庫存庫的數據一致性。

成熟期：業務拓展，單體架構已經滿足不了需求，進而衍化成了分佈式系統，這時的訂單和庫存已經拆分爲了兩個子系統提供服務，子系統間使用 RPC 進行通信。

但是無論系統發展成什麼樣，我們都要保證業務不出問題，保證訂單和庫存的數據一致，這時候要思考下在服務之間我們應如何保證數據一致。

強一致性分佈式事務

單體架構多數據源，在業務開發中，肯定是先執行對訂單庫的操作，但是不提交事務，再執行對庫存庫的操作，也不提交事務，如果兩個操作都成功，在一起提交事務，如果有一個操作失敗，則兩個都進行回滾。

基於 2PC/XA 協議實現的 JTA：我們已經知道了 2PC 和 XA 協議的原理，而 JTA 是 Java 規範，是 XA 在 Java 上的實現。

JTA（Java Transaction Manager）:

Transaction Manager：常用方法，可以開啓，回滾，獲取事務。begin()，rollback()…
XAResouce：資源管理，通過 Session 來進行事務管理，commit（xid）…
XID : 每一個事務都分配一個特定的 XID。

JTA 主要的原理是二階段提交，當整個業務完成了之後只是第一階段提交，在第二階段提交之前會檢查其他所有事務是否已經提交。

如果前面出現了錯誤或是沒有提交，那麼第二階段就不會提交，而是直接回滾，這樣所有的事務都會做回滾操作。基於 JTA 這種方案實現分佈式事務的強一致性。

JTA 的特點：

基於兩階段提交，有可能會出現數據不一致的情況
事務時間過長，阻塞
性能低，吞吐量低

實現可以使用基於 JTA 實現的 Jar 包 Atomikos 例子可以自己百度一下。

正常架構設計中是否應該出現這種跨庫的操作，我覺得是不應該的，如果按業務拆分將數據源進行分庫，我們應該同時將服務也拆分出去才合適，應遵循一個系統只操作一個數據源（主從沒關係），避免後續可能會出現的多個系統調用一個數據源的情況。

最終一致性分佈式事務方案

本地消息表的核心思想是將分佈式事務拆分成本地事務進行處理。

①本地消息表

本地消息表的核心思想是將分佈式事務拆分成本地事務進行處理。

以本文中例子，在訂單系統新增一條消息表，將新增訂單和新增消息放到一個事務裏完成，然後通過輪詢的方式去查詢消息表，將消息推送到 MQ，庫存系統去消費 MQ。

執行流程：

訂單系統，添加一條訂單和一條消息，在一個事務裏提交。
訂單系統，使用定時任務輪詢查詢狀態爲未同步的消息表，發送到 MQ，如果發送失敗，就重試發送。
庫存系統，接收 MQ 消息，修改庫存表，需要保證冪等操作。
如果修改成功，調用 RPC 接口修改訂單系統消息表的狀態爲已完成或者直接刪除這條消息。
如果修改失敗，可以不做處理，等待重試。

訂單系統中的消息有可能由於業務問題會一直重複發送，所以爲了避免這種情況可以記錄一下發送次數，當達到次數限制之後報警，人工接入處理；庫存系統需要保證冪等，避免同一條消息被多次消費造成數據一致。

本地消息表這種方案實現了最終一致性，需要在業務系統裏增加消息表，業務邏輯中多一次插入的 DB 操作，所以性能會有損耗，而且最終一致性的間隔主要由定時任務的間隔時間決定。

②MQ 消息事務
消息事務的原理是將兩個事務通過消息中間件進行異步解耦。

訂單系統執行自己的本地事務，併發送 MQ 消息，庫存系統接收消息，執行自己的本地事務。

乍一看，好像跟本地消息表的實現方案類似，只是省去了對本地消息表的操作和輪詢發送 MQ 的操作，但實際上兩種方案的實現是不一樣的。

消息事務一定要保證業務操作與消息發送的一致性，如果業務操作成功，這條消息也一定投遞成功。

消息事務依賴於消息中間件的事務消息，基於消息中間件的二階段提交實現的，RocketMQ 就支持事務消息。
執行流程：

發送 Prepare 消息到消息中間件。
發送成功後，執行本地事務。
如果事務執行成功，則 Commit，消息中間件將消息下發至消費端。
如果事務執行失敗，則回滾，消息中間件將這條 Prepare 消息刪除。
消費端接收到消息進行消費，如果消費失敗，則不斷重試。

這種方案也是實現了最終一致性，對比本地消息表實現方案，不需要再建消息表，不再依賴本地數據庫事務了，所以這種方案更適用於高併發的場景。

③最大努力通知
最大努力通知相比前兩種方案實現簡單，適用於一些最終一致性要求較低的業務，比如支付通知，短信通知這種業務。

以支付通知爲例，業務系統調用支付平臺進行支付，支付平臺進行支付，進行操作支付之後支付平臺會盡量去通知業務系統支付操作是否成功，但是會有一個最大通知次數。

如果超過這個次數後還是通知失敗，就不再通知，業務系統自行調用支付平臺提供一個查詢接口，供業務系統進行查詢支付操作是否成功。

執行流程：

業務系統調用支付平臺支付接口，並在本地進行記錄，支付狀態爲支付中。
支付平臺進行支付操作之後，無論成功還是失敗，都需要給業務系統一個結果通知。
如果通知一直失敗則根據重試規則進行重試，達到最大通知次數後，不再通知。
支付平臺提供查詢訂單支付操作結果接口。
業務系統根據一定業務規則去支付平臺查詢支付結果。

這種方案也是實現了最終一致性。

④補償事務 TCC

TCC，Try-Confirm-Cancel 的簡稱，針對每個操作，都需要有一個其對應的確認和取消操作。

當操作成功時調用確認操作，當操作失敗時調用取消操作，類似於二階段提交，只不過是這裏的提交和回滾是針對業務上的，所以基於 TCC 實現的分佈式事務也可以看做是對業務的一種補償機制。

TCC 的三階段：

Try 階段：對業務系統做檢測及資源預留。
Confirm 階段：對業務系統做確認提交，Try 階段執行成功並開始執行 Confirm 階段時，默認 Confirm 階段是不會出錯的。即：只要 Try 成功，Confirm 一定成功。
Cancel 階段：在業務執行錯誤，需要回滾的狀態下執行的業務取消，預留資源釋放。

在 Try 階段，是對業務系統進行檢查及資源預覽，比如訂單和存儲操作，需要檢查庫存剩餘數量是否夠用，並進行預留，預留操作的話就是新建一個可用庫存數量字段，Try 階段操作是對這個可用庫存數量進行操作。

比如下一個訂單減一個庫存：

執行流程：

Try 階段：訂單系統將當前訂單狀態設置爲支付中，庫存系統校驗當前剩餘庫存數量是否大於 1，然後將可用庫存數量設置爲庫存剩餘數量 -1。
如果 Try 階段執行成功，執行 Confirm 階段，將訂單狀態修改爲支付成功，庫存剩餘數量修改爲可用庫存數量。
如果 Try 階段執行失敗，執行 Cancel 階段，將訂單狀態修改爲支付失敗，可用庫存數量修改爲庫存剩餘數量。

基於 TCC 實現分佈式事務，代碼邏輯相對複雜一些，需要將原來的接口的邏輯拆分爲：Try，Confirm ，Cancel 三個接口的邏輯。

基於 TCC 實現的分佈式事務框架：

ByteTCC，github.com/liuyangming
tcc-transaction：github.com/changmingxi

讀完之後應該對分佈式事務有了一個大致的瞭解，在實際生產中我們要儘量避免使用分佈式事務，能轉化爲本地事務就用本地事務，如果必須使用分佈式事務，還需要從業務角度多思考使用哪種方案更適合，總之行動之前多思考。

Amos zhu

發佈了45 篇原創文章 · 獲贊 9 · 訪問量 6458

私信關注

終於有人把“分佈式事務”說清楚了！(轉載）

分佈式事務

理論基礎

CAP理論

BASE理論

分佈式事務協議

X/Open XA 協議

2PC：二階段提交協議

3PC：三階段提交協議

解決方案

強一致性分佈式事務

最終一致性分佈式事務方案

④補償事務 TCC

SpringBoot+Redis+MemCache+Nginx+Lua實現三級緩存架構（三）——Nginx+Lua實現定向請求分發

SpringBoot+Redis+MemCache+Nginx+Lua實現三級緩存架構（一）——三級緩存架構體系

SpringBoot+Redis+MemCache+Nginx+Lua實現三級緩存架構（二）——Nginx環境安裝和整合Lua

策略模式+Spring——讓我們的代碼更加高大上一點

Mysql分庫分表實戰（一）——一文搞懂Mysql數據庫分庫分表

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結