多版本併發控制(MVCC)在分佈式系統中的應用

問題

最近項目中遇到了一個分佈式系統的併發控制問題。該問題可以抽象爲:某分佈式系統由一個數據中心D和若干業務處理中心L1,L2 … Ln組成;D本質上是一個key-value存儲,它對外提供基於HTTP協議的CRUD操作接口。L的業務邏輯可以抽象爲下面3個步驟:

  1. read: 根據keySet {k1, … kn}從D獲取keyValueSet {k1:v1, … kn:vn}
  2. do: 根據keyValueSet進行業務處理,得到需要更新的數據集keyValueSet’ {k1′:v1′, … km’:vm’} (:讀取的keySet和更新的keySet’可能不同)
  3. update: 把keyValueSet’更新到D (:D保證在一次調用更新多個key的原子性)

在沒有事務支持的情況下,多個L進行併發處理可能會導致數據一致性問題。比如,考慮L1和L2的如下執行順序:

  1. L1從D讀取key:123對應的值100
  2. L2從D讀取key:123對應的100
  3. L1將key:123更新爲100 + 1
  4. L2將key:123更新爲100 + 2

如果L1和L2串行執行,key:123對應的值將爲103,但上面併發執行中L1的執行效果完全被L2所覆蓋,實際key:123所對應的值變成了102。

 

解決方案1:基於鎖的事務

爲了讓L的處理具有可串行化特性(Serializability),一種最直接的解決方案就是考慮爲D加上基於鎖的簡單事務。讓L在進行業務處理前先鎖定D,完成以後釋放鎖。另外,爲了防止持有鎖的L由於某種原因長時間未提交事務,D還需要具有超時機制,當L嘗試提交一個已超時的事務時會得到一個錯誤響應。

0915536496-0

本方案的優點是實現簡單,缺點是鎖定了整個數據集,粒度太大;時間上包含了L的整個處理時間,跨度太長。雖然我們可以考慮把鎖定粒度降低到數據項級別,按key進行鎖定,但這又會帶來其他的問題。由於更新的keySet’可能是事先不確定的,所以可能無法在開始事務時鎖定所有的key;如果分階段來鎖定需要的key,又可能出現死鎖(Deadlock)問題。另外,按key鎖定在有鎖爭用的情況下並不能解決鎖定時間太長的問題。所以,按key鎖定仍然存在重要的不足之處。

解決方案2:多版本併發控制

爲了實現可串行化,同時避免鎖機制存在的各種問題,我們可以採用基於多版本併發控制(Multiversion concurrency control,MVCC)思想的無鎖事務機制。人們一般把基於鎖的併發控制機制稱成爲悲觀機制,而把MVCC機制稱爲樂觀機制。這是因爲鎖機制是一種預防性的,讀會阻塞寫,寫也會阻塞讀,當鎖定粒度較大,時間較長時併發性能就不會太好;而MVCC是一種後驗性的,讀不阻塞寫,寫也不阻塞讀,等到提交的時候才檢驗是否有衝突,由於沒有鎖,所以讀寫不會相互阻塞,從而大大提升了併發性能。我們可以借用源代碼版本控制來理解MVCC,每個人都可以自由地閱讀和修改本地的代碼,相互之間不會阻塞,只在提交的時候版本控制器會檢查衝突,並提示merge。目前,Oracle、PostgreSQL和MySQL都已支持基於MVCC的併發機制,但具體實現各有不同。

MVCC的一種簡單實現是基於CAS(Compare-and-swap)思想的有條件更新(Conditional Update)。普通的update參數只包含了一個keyValueSet’,Conditional Update在此基礎上加上了一組更新條件conditionSet { … data[keyx]=valuex, … },即只有在D滿足更新條件的情況下才將數據更新爲keyValueSet’;否則,返回錯誤信息。這樣,L就形成了如下圖所示的Try/Conditional Update/(Try again)的處理模式:

0915535U3-1

雖然對單個L來講不能保證每次都成功更新,但從整個系統來看,總是有任務能夠順利進行。這種方案利用Conditional Update避免了大粒度和長時間的鎖定,當各個業務之間資源爭用不大的情況下,併發性能很好。不過,由於Conditional Update需要更多的參數,如果condition中value的長度很長,那麼每次網絡傳送的數據量就會比較大,從而導致性能下降。特別是當需要更新的keyValueSet’很小,而condition很大時,就顯得非常不經濟。

爲了避免condition太大所帶來的性能問題,可以爲每條數據項增加一個int型的版本號字段,由D維護該版本號,每次數據有更新就增加版本號;L在進行Conditional Update時,通過版本號取代具體的值。

0915533324-2

另一個問題是上面的解決方案假設了D是可以支持Conditional Update的;那麼,如果D是一個不支持Conditional Update的第三方的key-value存儲怎麼辦呢?這時,我們可以在L和D之間增加一個P作爲代理,所有的CRUD操作都必須經過P,讓P來進行條件檢查,而實際的數據操作放在D。這種方式實現了條件檢查和數據操作的分離,但同時降低了性能,需要在P中增加cache,提升性能。由於P是D的唯一客戶端;所以,P的cache管理是非常簡單的,不必像多客戶端情形擔心緩存的失效。不過,實際上,據我所知redis和Amazon SimpleDB都已經有了Conditional Update的支持。

悲觀鎖和MVCC對比

上面介紹了悲觀鎖和MVCC的基本原理,但是對於它們分別適用於什麼場合,不同的場合下兩種機制優劣具體表現在什麼地方還不是很清楚。這裏我就對一些典型的應用場景進行簡單的分析。需要注意的是下面的分析不針對分佈式,悲觀鎖和MVCC兩種機制在分佈式系統、單數據庫系統、甚至到內存變量各個層次都存在。

### 場景1:對讀的響應速度要求高

有一類系統更新特別頻繁,並且對讀的響應速度要求很高,如股票交易系統。在悲觀鎖機制下,寫會阻塞讀,那麼當有寫操作時,讀操作的響應速度就會受到影響;而MVCC不存在讀寫鎖,讀操作是不受任何阻塞的,所以讀的響應速度會更快更穩定。

### 場景2:讀遠多於寫

對於許多系統來講,讀操作的比例往往遠大於寫操作,特別是某些海量併發讀的系統。在悲觀鎖機制下,當有寫操作佔用鎖,就會有大量的讀操作被阻塞,影響併發性能;而MVCC可以保持比較高且穩定的讀併發能力。

### 場景3:寫操作衝突頻繁

如果系統中寫操作的比例很高,且衝突頻繁,這時就需要仔細評估。假設兩個有衝突的業務L1和L2,它們在單獨執行是分別耗時t1,t2。在悲觀鎖機制下,它們的總時間大約等於串行執行的時間:

T = t1 + t2

而在MVCC下,假設L1在L2之前更新,L2需要retry一次,它們的總時間大約等於L2執行兩次的時間(這裏假設L2的兩次執行耗時相等,更好的情況是,如果第1次能緩存下部分有效結果,第二次執行L2耗時是可能減小的):

T’ = 2 * t2

這時關鍵是要評估retry的代價,如果retry的代價很低,比如,對某個計數器遞增,又或者第二次執行可以比第一次快很多,這時採用MVCC機制就比較適合。反之,如果retry的代價很大,比如,報表統計運算需要算幾小時甚至一天那就應該採用鎖機制避免retry。

從上面的分析,我們可以簡單的得出這樣的結論:對讀的響應速度和併發性要求比較高的場景適合MVCC;而retry代價越大的場景越適合悲觀鎖機制。

總結

本文介紹了一種基於多版本併發控制(MVCC)思想的Conditional Update解決分佈式系統併發控制問題的方法。和基於悲觀鎖的方法相比,該方法避免了大粒度和長時間的鎖定,能更好地適應對讀的響應速度和併發性要求高的場景。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章