Redis複製與可擴展集羣搭建

摘自:http://www.infoq.com/cn/articles/tq-redis-copy-build-scalable-cluster

上一篇文章討論了Redis的常用數據類型與存儲機制,本文會討論一下Redis的複製功能以及Redis複製機制本身的優缺點以及集羣搭建問題。

Redis複製流程概述

Redis的複製功能是完全建立在之前我們討論過的基於內存快照的持久化策略基礎上的,也就是說無論你的持久化策略選擇的是什麼,只要用到了Redis的複製功能,就一定會有內存快照發生,那麼首先要注意你的系統內存容量規劃,原因可以參考我上一篇文章中提到的Redis磁盤IO問題。

Redis複製流程在Slave和Master端各自是一套狀態機流轉,涉及的狀態信息是:

Slave 端:

REDIS_REPL_NONE
REDIS_REPL_CONNECT
REDIS_REPL_CONNECTED 

Master端:

REDIS_REPL_WAIT_BGSAVE_START
REDIS_REPL_WAIT_BGSAVE_END
REDIS_REPL_SEND_BULK
REDIS_REPL_ONLINE

整個狀態機流程過程如下:

  1. Slave端在配置文件中添加了slave of指令,於是Slave啓動時讀取配置文件,初始狀態爲REDIS_REPL_CONNECT。
  2. Slave端在定時任務serverCron(Redis內部的定時器觸發事件)中連接Master,發送sync命令,然後阻塞等待master發送回其內存快照文件(最新版的Redis已經不需要讓Slave阻塞)。
  3. Master端收到sync命令簡單判斷是否有正在進行的內存快照子進程,沒有則立即開始內存快照,有則等待其結束,當快照完成後會將該文件發送給Slave端。
  4. Slave端接收Master發來的內存快照文件,保存到本地,待接收完成後,清空內存表,重新讀取Master發來的內存快照文件,重建整個內存表數據結構,並最終狀態置位爲 REDIS_REPL_CONNECTED狀態,Slave狀態機流轉完成。
  5. Master端在發送快照文件過程中,接收的任何會改變數據集的命令都會暫時先保存在Slave網絡連接的發送緩存隊列裏(list數據結構),待快照完成後,依次發給Slave,之後收到的命令相同處理,並將狀態置位爲 REDIS_REPL_ONLINE。

整個複製過程完成,流程如下圖所示:

Redis複製機制的缺陷

從上面的流程可以看出,Slave從庫在連接Master主庫時,Master會進行內存快照,然後把整個快照文件發給Slave,也就是沒有象MySQL那樣有複製位置的概念,即無增量複製,這會給整個集羣搭建帶來非常多的問題。

比如一臺線上正在運行的Master主庫配置了一臺從庫進行簡單讀寫分離,這時Slave由於網絡或者其它原因與Master斷開了連接,那麼當Slave進行重新連接時,需要重新獲取整個Master的內存快照,Slave所有數據跟着全部清除,然後重新建立整個內存表,一方面Slave恢復的時間會非常慢,另一方面也會給主庫帶來壓力。

所以基於上述原因,如果你的Redis集羣需要主從複製,那麼最好事先配置好所有的從庫,避免中途再去增加從庫。

Cache還是Storage

在我們分析過了Redis的複製與持久化功能後,我們不難得出一個結論,實際上Redis目前發佈的版本還都是一個單機版的思路,主要的問題集中在,持久化方式不夠成熟,複製機制存在比較大的缺陷,這時我們又開始重新思考Redis的定位:Cache還是Storage?

如果作爲Cache的話,似乎除了有些非常特殊的業務場景,必須要使用Redis的某種數據結構之外,我們使用Memcached可能更合適,畢竟Memcached無論客戶端包和服務器本身更久經考驗。

如果是作爲存儲Storage的話,我們面臨的最大的問題是無論是持久化還是複製都沒有辦法解決Redis單點問題,即一臺Redis掛掉了,沒有太好的辦法能夠快速的恢復,通常幾十G的持久化數據,Redis重啓加載需要幾個小時的時間,而複製又有缺陷,如何解決呢?

Redis可擴展集羣搭建

1. 主動複製避開Redis複製缺陷。

既然Redis的複製功能有缺陷,那麼我們不妨放棄Redis本身提供的複製功能,我們可以採用主動複製的方式來搭建我們的集羣環境。

所謂主動複製是指由業務端或者通過代理中間件對Redis存儲的數據進行雙寫或多寫,通過數據的多份存儲來達到與複製相同的目的,主動複製不僅限於用在Redis集羣上,目前很多公司採用主動複製的技術來解決MySQL主從之間複製的延遲問題,比如Twitter還專門開發了用於複製和分區的中間件gizzard(https://github.com/twitter/gizzard) 。

主動複製雖然解決了被動複製的延遲問題,但也帶來了新的問題,就是數據的一致性問題,數據寫2次或多次,如何保證多份數據的一致性呢?如果你的應用對數據一致性要求不高,允許最終一致性的話,那麼通常簡單的解決方案是可以通過時間戳或者vector clock等方式,讓客戶端同時取到多份數據並進行校驗,如果你的應用對數據一致性要求非常高,那麼就需要引入一些複雜的一致性算法比如Paxos來保證數據的一致性,但是寫入性能也會相應下降很多。

通過主動複製,數據多份存儲我們也就不再擔心Redis單點故障的問題了,如果一組Redis集羣掛掉,我們可以讓業務快速切換到另一組Redis上,降低業務風險。

2. 通過presharding進行Redis在線擴容。

通過主動複製我們解決了Redis單點故障問題,那麼還有一個重要的問題需要解決:容量規劃與在線擴容問題。

我們前面分析過Redis的適用場景是全部數據存儲在內存中,而內存容量有限,那麼首先需要根據業務數據量進行初步的容量規劃,比如你的業務數據需要100G存儲空間,假設服務器內存是48G,那麼根據上一篇我們討論的Redis磁盤IO的問題,我們大約需要3~4臺服務器來存儲。這個實際是對現有業務情況所做的一個容量規劃,假如業務增長很快,很快就會發現當前的容量已經不夠了,Redis裏面存儲的數據很快就會超過物理內存大小,那麼如何進行Redis的在線擴容呢?

Redis的作者提出了一種叫做presharding的方案來解決動態擴容和數據分區的問題,實際就是在同一臺機器上部署多個Redis實例的方式,當容量不夠時將多個實例拆分到不同的機器上,這樣實際就達到了擴容的效果。

拆分過程如下:

  1. 在新機器上啓動好對應端口的Redis實例。
  2. 配置新端口爲待遷移端口的從庫。
  3. 待複製完成,與主庫完成同步後,切換所有客戶端配置到新的從庫的端口。
  4. 配置從庫爲新的主庫。
  5. 移除老的端口實例。
  6. 重複上述過程遷移好所有的端口到指定服務器上。

以上拆分流程是Redis作者提出的一個平滑遷移的過程,不過該拆分方法還是很依賴Redis本身的複製功能的,如果主庫快照數據文件過大,這個複製的過程也會很久,同時會給主庫帶來壓力。所以做這個拆分的過程最好選擇爲業務訪問低峯時段進行。

Redis複製的改進思路

我們線上的系統使用了我們自己改進版的Redis,主要解決了Redis沒有增量複製的缺陷,能夠完成類似Mysql Binlog那樣可以通過從庫請求日誌位置進行增量複製。

我們的持久化方案是首先寫Redis的AOF文件,並對這個AOF文件按文件大小進行自動分割滾動,同時關閉Redis的Rewrite命令,然後會在業務低峯時間進行內存快照存儲,並把當前的AOF文件位置一起寫入到快照文件中,這樣我們可以使快照文件與AOF文件的位置保持一致性,這樣我們得到了系統某一時刻的內存快照,並且同時也能知道這一時刻對應的AOF文件的位置,那麼當從庫發送同步命令時,我們首先會把快照文件發送給從庫,然後從庫會取出該快照文件中存儲的AOF文件位置,並將該位置發給主庫,主庫會隨後發送該位置之後的所有命令,以後的複製就都是這個位置之後的增量信息了。

Redis與MySQL的結合

目前大部分互聯網公司使用MySQL作爲數據的主要持久化存儲,那麼如何讓Redis與MySQL很好的結合在一起呢?我們主要使用了一種基於MySQL作爲主庫,Redis作爲高速數據查詢從庫的異構讀寫分離的方案。

爲此我們專門開發了自己的MySQL複製工具,可以方便的實時同步MySQL中的數據到Redis上。

(MySQL-Redis 異構讀寫分離)

總結:

  1. Redis的複製功能沒有增量複製,每次重連都會把主庫整個內存快照發給從庫,所以需要避免向在線服務的壓力較大的主庫上增加從庫。
  2. Redis的複製由於會使用快照持久化方式,所以如果你的Redis持久化方式選擇的是日誌追加方式(aof),那麼系統有可能在同一時刻既做aof日誌文件的同步刷寫磁盤,又做快照寫磁盤操作,這個時候Redis的響應能力會受到影響。所以如果選用aof持久化,則加從庫需要更加謹慎。
  3. 可以使用主動複製和presharding方法進行Redis集羣搭建與在線擴容。

本文加上之前的2篇文章基本將Redis的最常用功能和使用場景與優化進行了分析和討論,實際Redis還有很多其它輔助的一些功能,Redis的作者也在不斷嘗試新的思路,這裏就不一一列舉了,有興趣的朋友可以研究下,也很歡迎一起討論,我的微博(http://weibo.com/bachmozart ) @搖擺巴赫。

發佈了32 篇原創文章 · 獲贊 17 · 訪問量 12萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章