多版本併發控制(MVCC)在分佈式系統中的應用

問題

最近項目中遇到了一個分佈式系統的併發控制問題。該問題可以抽象爲：某分佈式系統由一個數據中心D和若干業務處理中心L1，L2 … Ln組成；D本質上是一個key-value存儲，它對外提供基於HTTP協議的CRUD操作接口。L的業務邏輯可以抽象爲下面3個步驟：

read: 根據keySet {k1, … kn}從D獲取keyValueSet {k1:v1, … kn:vn}
do: 根據keyValueSet進行業務處理，得到需要更新的數據集keyValueSet’ {k1′:v1′, … km’:vm’} (注：讀取的keySet和更新的keySet’可能不同)
update: 把keyValueSet’更新到D （注：D保證在一次調用更新多個key的原子性）

在沒有事務支持的情況下，多個L進行併發處理可能會導致數據一致性問題。比如，考慮L1和L2的如下執行順序：

L1從D讀取key:123對應的值100
L2從D讀取key:123對應的100
L1將key:123更新爲100 + 1
L2將key:123更新爲100 + 2

如果L1和L2串行執行，key:123對應的值將爲103，但上面併發執行中L1的執行效果完全被L2所覆蓋，實際key:123所對應的值變成了102。

解決方案1：基於鎖的事務

爲了讓L的處理具有可串行化特性(Serializability)，一種最直接的解決方案就是考慮爲D加上基於鎖的簡單事務。讓L在進行業務處理前先鎖定D，完成以後釋放鎖。另外，爲了防止持有鎖的L由於某種原因長時間未提交事務，D還需要具有超時機制，當L嘗試提交一個已超時的事務時會得到一個錯誤響應。

本方案的優點是實現簡單，缺點是鎖定了整個數據集，粒度太大；時間上包含了L的整個處理時間，跨度太長。雖然我們可以考慮把鎖定粒度降低到數據項級別，按key進行鎖定，但這又會帶來其他的問題。由於更新的keySet’可能是事先不確定的，所以可能無法在開始事務時鎖定所有的key；如果分階段來鎖定需要的key，又可能出現死鎖(Deadlock)問題。另外，按key鎖定在有鎖爭用的情況下並不能解決鎖定時間太長的問題。所以，按key鎖定仍然存在重要的不足之處。

解決方案2：多版本併發控制

爲了實現可串行化，同時避免鎖機制存在的各種問題，我們可以採用基於多版本併發控制（Multiversion concurrency control，MVCC）思想的無鎖事務機制。人們一般把基於鎖的併發控制機制稱成爲悲觀機制，而把MVCC機制稱爲樂觀機制。這是因爲鎖機制是一種預防性的，讀會阻塞寫，寫也會阻塞讀，當鎖定粒度較大，時間較長時併發性能就不會太好；而MVCC是一種後驗性的，讀不阻塞寫，寫也不阻塞讀，等到提交的時候才檢驗是否有衝突，由於沒有鎖，所以讀寫不會相互阻塞，從而大大提升了併發性能。我們可以借用源代碼版本控制來理解MVCC，每個人都可以自由地閱讀和修改本地的代碼，相互之間不會阻塞，只在提交的時候版本控制器會檢查衝突，並提示merge。目前，Oracle、PostgreSQL和MySQL都已支持基於MVCC的併發機制，但具體實現各有不同。

MVCC的一種簡單實現是基於CAS（Compare-and-swap）思想的有條件更新（Conditional Update）。普通的update參數只包含了一個keyValueSet’，Conditional Update在此基礎上加上了一組更新條件conditionSet { … data[keyx]=valuex, … }，即只有在D滿足更新條件的情況下才將數據更新爲keyValueSet’；否則，返回錯誤信息。這樣，L就形成了如下圖所示的Try/Conditional Update/(Try again)的處理模式：

雖然對單個L來講不能保證每次都成功更新，但從整個系統來看，總是有任務能夠順利進行。這種方案利用Conditional Update避免了大粒度和長時間的鎖定，當各個業務之間資源爭用不大的情況下，併發性能很好。不過，由於Conditional Update需要更多的參數，如果condition中value的長度很長，那麼每次網絡傳送的數據量就會比較大，從而導致性能下降。特別是當需要更新的keyValueSet’很小，而condition很大時，就顯得非常不經濟。

爲了避免condition太大所帶來的性能問題，可以爲每條數據項增加一個int型的版本號字段，由D維護該版本號，每次數據有更新就增加版本號；L在進行Conditional Update時，通過版本號取代具體的值。

另一個問題是上面的解決方案假設了D是可以支持Conditional Update的；那麼，如果D是一個不支持Conditional Update的第三方的key-value存儲怎麼辦呢？這時，我們可以在L和D之間增加一個P作爲代理，所有的CRUD操作都必須經過P，讓P來進行條件檢查，而實際的數據操作放在D。這種方式實現了條件檢查和數據操作的分離，但同時降低了性能，需要在P中增加cache，提升性能。由於P是D的唯一客戶端；所以，P的cache管理是非常簡單的，不必像多客戶端情形擔心緩存的失效。不過，實際上，據我所知redis和Amazon SimpleDB都已經有了Conditional Update的支持。

悲觀鎖和MVCC對比

上面介紹了悲觀鎖和MVCC的基本原理，但是對於它們分別適用於什麼場合，不同的場合下兩種機制優劣具體表現在什麼地方還不是很清楚。這裏我就對一些典型的應用場景進行簡單的分析。需要注意的是下面的分析不針對分佈式，悲觀鎖和MVCC兩種機制在分佈式系統、單數據庫系統、甚至到內存變量各個層次都存在。

### 場景1：對讀的響應速度要求高

有一類系統更新特別頻繁，並且對讀的響應速度要求很高，如股票交易系統。在悲觀鎖機制下，寫會阻塞讀，那麼當有寫操作時，讀操作的響應速度就會受到影響；而MVCC不存在讀寫鎖，讀操作是不受任何阻塞的，所以讀的響應速度會更快更穩定。

### 場景2：讀遠多於寫

對於許多系統來講，讀操作的比例往往遠大於寫操作，特別是某些海量併發讀的系統。在悲觀鎖機制下，當有寫操作佔用鎖，就會有大量的讀操作被阻塞，影響併發性能；而MVCC可以保持比較高且穩定的讀併發能力。

### 場景3：寫操作衝突頻繁

如果系統中寫操作的比例很高，且衝突頻繁，這時就需要仔細評估。假設兩個有衝突的業務L1和L2，它們在單獨執行是分別耗時t1，t2。在悲觀鎖機制下，它們的總時間大約等於串行執行的時間：

T = t1 + t2

而在MVCC下，假設L1在L2之前更新，L2需要retry一次，它們的總時間大約等於L2執行兩次的時間（這裏假設L2的兩次執行耗時相等，更好的情況是，如果第1次能緩存下部分有效結果，第二次執行L2耗時是可能減小的）：

T’ = 2 * t2

這時關鍵是要評估retry的代價，如果retry的代價很低，比如，對某個計數器遞增，又或者第二次執行可以比第一次快很多，這時採用MVCC機制就比較適合。反之，如果retry的代價很大，比如，報表統計運算需要算幾小時甚至一天那就應該採用鎖機制避免retry。

從上面的分析，我們可以簡單的得出這樣的結論：對讀的響應速度和併發性要求比較高的場景適合MVCC；而retry代價越大的場景越適合悲觀鎖機制。

總結

本文介紹了一種基於多版本併發控制（MVCC）思想的Conditional Update解決分佈式系統併發控制問題的方法。和基於悲觀鎖的方法相比，該方法避免了大粒度和長時間的鎖定，能更好地適應對讀的響應速度和併發性要求高的場景。

多版本併發控制(MVCC)在分佈式系統中的應用

問題

解決方案1：基於鎖的事務

解決方案2：多版本併發控制

悲觀鎖和MVCC對比

總結

linux加載動態庫失敗

linux c 同一共享庫文件多個版本共存帶來的運行錯誤的原理 not found

【計算機體系結構】NUMA架構詳解

zsh+on-my-zsh配置教程指南（程序員必備）

線程同步之詳解自旋鎖

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結