MySQL Replication

1 MySQL5.5以前的複製

異步、SQL線程串行化回放

MySQL內建的複製功能是構建大型，高性能應用程序的基礎。主服務器將更新寫入二進制日誌文件，從服務器重新執行一遍來實現的

1.1 MySQL支持的複製類型　　

基於語句的複製：

在主服務器上執行的SQL語句，在從服務器上執行同樣的語句。MySQL默認採用基於語句的複製，效率比較高。

MySQL 5.0及之前的版本僅支持基於語句的複製（也叫做邏輯複製，logical replication），這在數據庫並不常見。master記錄下改變數據的查詢，然後，slave從中繼日誌中讀取事件，並執行它，這些SQL語句與master執行的語句一樣。

這種方式的優點就是實現簡單。此外，基於語句的複製的二進制日誌可以很好的進行壓縮，而且日誌的數據量也較小，佔用帶寬少——例如，一個更新GB的數據的查詢僅需要幾十個字節的二進制日誌。而mysqlbinlog對於基於語句的日誌處理十分方便。

但是，基於語句的複製並不是像它看起來那麼簡單，因爲一些查詢語句依賴於master的特定條件，例如，master與slave可能有不同的時間。所以，MySQL的二進制日誌的格式不僅僅是查詢語句，還包括一些元數據信息，例如，當前的時間戳。即使如此，還是有一些語句，比如，CURRENT USER函數，不能正確的進行復制。此外，存儲過程和觸發器也是一個問題。

另外一個問題就是基於語句的複製必須是串行化的。這要求大量特殊的代碼，配置，例如InnoDB的next-key鎖等。並不是所有的存儲引擎都支持基於語句的複製。

基於行的複製：

把改變的內容複製過去，而不是把命令在從服務器上執行一遍. 從mysql5.0開始支持

MySQL增加基於記錄的複製，在二進制日誌中記錄下實際數據的改變，這與其它一些DBMS的實現方式類似。這種方式有優點，也有缺點。優點就是可以對任何語句都能正確工作，一些語句的效率更高。主要的缺點就是二進制日誌可能會很大，而且不直觀，所以，你不能使用mysqlbinlog來查看二進制日誌。

混合類型的複製:

默認採用基於語句的複製，一旦發現基於語句的無法精確的複製時，就會採用基於行的複製。

1.2 複製相關的文件

除了二進制日誌和中繼日誌文件外，還有其它一些與複製相關的文件。

mysql-bin.index

服務器一旦開啓二進制日誌，會產生一個與二日誌文件同名，但是以.index結尾的文件。它用於跟蹤磁盤上存在哪些二進制日誌文件。MySQL用它來定位二進制日誌文件。

mysql-relay-bin.index

該文件的功能與mysql-bin.index類似，但是它是針對中繼日誌，而不是二進制日誌。

master.info

保存master的相關信息。不要刪除它，否則，slave重啓後不能連接master。I/O線程更新master.info文件

relay-log.info

包含slave中當前二進制日誌和中繼日誌的信息。

1.3 複製的原理

master將改變記錄到二進制日誌(binary log)中（這些記錄叫做二進制日誌事件，binary log events）；
slave將master的binary log events拷貝到它的中繼日誌(relay log)；
slave重做中繼日誌中的事件，將更改應用到自己的數據上。

在每個事務更新數據完成之前，MySQL將事務串行的寫入二進制日誌，即使事務中的語句都是交叉執行的。在事件寫入二進制日誌完成後，master通知存儲引擎提交事務。

slave開始一個工作線程——I/O線程。I/O線程在master上打開一個普通的連接，然後開始binlog dump process。Binlog dump process從master的二進制日誌中讀取事件還包括文件的名稱以及bin-log的位置，如果已經跟上master，它會睡眠並等待master產生新的事件。I/O線程將這些事件寫入中繼日誌。

SQL線程從中繼日誌讀取事件，並重放其中的事件而更新slave的數據，使其與master中的數據一致。只要該線程與I/O線程保持一致，中繼日誌通常會位於OS的緩存中，所以中繼日誌的開銷很小。

複製過程有一個很重要的限制——複製在slave上是串行化的（完全順序的執行日誌中所記錄的各種操作），也就是說master上的並行更新操作不能在slave上並行操作。

Slave繼續作爲其他節點的master，當設置log_slave_updates時，你可以讓slave扮演其它slave的master。此時，slave把SQL線程執行的事件寫進行自己的二進制日誌(binary log)，然後，它的slave可以獲取這些事件並執行它。

複製過濾，複製過濾可以讓你只複製服務器中的一部分數據，有兩種複製過濾：在master上過濾二進制日誌中的事件；在slave上過濾中繼日誌中的事件。

1.4 複製的常用拓撲結構

單一master和多slave

由一個master和一個slave組成複製系統是最簡單的情況。Slave之間並不相互通信，只能與master進行通信。

在實際應用場景中，MySQL複製90%以上都是一個Master複製到一個或者多個Slave的架構模式，主要用於讀壓力比較大的應用的數據庫端廉價擴展解決方案。因爲只要Master和Slave的壓力不是太大（尤其是Slave端壓力）的話，異步複製的延時一般都很少很少。尤其是自從Slave端的複製方式改成兩個線程處理之後，更是減小了Slave端的延時問題。而帶來的效益是，對於數據實時性要求不是特別Critical的應用，只需要通過廉價的pcserver來擴展Slave的數量，將讀壓力分散到多臺Slave的機器上面，即可通過分散單臺數據庫服務器的讀壓力來解決數據庫端的讀性能瓶頸，畢竟在大多數數據庫應用系統中的讀壓力還是要比寫壓力大很多。這在很大程度上解決了目前很多中小型網站的數據庫壓力瓶頸問題，甚至有些大型網站也在使用類似方案解決數據庫瓶頸。

如果寫操作較少，而讀操作很時，可以採取這種結構。你可以將讀操作分佈到其它的slave，從而減小master的壓力。但是，當slave增加到一定數量時，slave對master的負載以及網絡帶寬都會成爲一個嚴重的問題。

這種結構雖然簡單，但是，它卻非常靈活，足夠滿足大多數應用需求。一些建議：

不同的slave扮演不同的作用(例如使用不同的索引，或者不同的存儲引擎)；
用一個slave作爲備用master，只進行復制；
用一個遠程的slave，用於災難恢復；

主動模式的Master-Master(Master-Master in Active-Active Mode)

Master-Master複製的兩臺服務器，將對方作爲自己的master，同時將自己作爲對方的slave。這樣，任何一方所做的變更，都會通過複製應用到另外一方的數據庫中。

可能有些讀者朋友會有一個擔心，這樣搭建複製環境之後，難道不會造成兩臺MySQL之間的循環複製麼？實際上MySQL自己早就想到了這一點，所以在MySQL的BinaryLog中記錄了當前MySQL的server-id，而且這個參數也是我們搭建MySQLReplication的時候必須明確指定，而且Master和Slave的server-id參數值必須要不一致才能使MySQLReplication搭建成功。一旦有了server-id的值之後，MySQL就很容易判斷某個變更是從哪一個MySQLServer最初產生的，所以就很容易避免出現循環複製的情況。而且，如果我們不打開記錄Slave的BinaryLog的選項（--log-slave-update）的時候，MySQL根本就不會記錄複製過程中的變更到BinaryLog中，就更不用擔心可能會出現循環複製的情形了。

主動的Master-Master複製有一些特殊的用處。例如，地理上分佈的兩個部分都需要自己的可寫的數據副本。這種結構最大的問題就是更新衝突。

主動-被動模式的Master-Master(Master-Master in Active-Passive Mode)

這是master-master結構變化而來的，它避免了M-M的缺點，實際上，這是一種具有容錯和高可用性的系統。它的不同點在於其中一個服務只能進行只讀操作。

級聯複製架構 Master –Slaves - Slaves

在有些應用場景中，可能讀寫壓力差別比較大，讀壓力特別的大，一個Master可能需要上10臺甚至更多的Slave才能夠支撐注讀的壓力。這時候，Master就會比較吃力了，因爲僅僅連上來的SlaveIO線程就比較多了，這樣寫的壓力稍微大一點的時候，Master端因爲複製就會消耗較多的資源，很容易造成複製的延時。

遇到這種情況如何解決呢？這時候我們就可以利用MySQL可以在Slave端記錄複製所產生變更的BinaryLog信息的功能，也就是打開—log-slave-update選項。然後，通過二級（或者是更多級別）複製來減少Master端因爲複製所帶來的壓力。也就是說，我們首先通過少數幾臺MySQL從Master來進行復制，這幾臺機器我們姑且稱之爲第一級Slave集羣，然後其他的Slave再從第一級Slave集羣來進行復制。從第一級Slave進行復制的Slave，我稱之爲第二級Slave集羣。如果有需要，我們可以繼續往下增加更多層次的複製。這樣，我們很容易就控制了每一臺MySQL上面所附屬Slave的數量。這種架構我稱之爲Master-Slaves-Slaves架構

這種多層級聯複製的架構，很容易就解決了Master端因爲附屬Slave太多而成爲瓶頸的風險。

當然，如果條件允許，我更傾向於建議大家通過拆分成多個Replication集羣來解決

上述瓶頸問題。畢竟Slave並沒有減少寫的量，所有Slave實際上仍然還是應用了所有的數據變更操作，沒有減少任何寫IO。相反，Slave越多，整個集羣的寫IO總量也就會越多，我們沒有非常明顯的感覺，僅僅只是因爲分散到了多臺機器上面，所以不是很容易表現出來。

此外，增加複製的級聯層次，同一個變更傳到最底層的Slave所需要經過的MySQL也會更多，同樣可能造成延時較長的風險。

而如果我們通過分拆集羣的方式來解決的話，可能就會要好很多了，當然，分拆集羣也需要更復雜的技術和更復雜的應用系統架構。

帶從服務器的Master-Master結構(Master-Master with Slaves)

這種結構的優點就是提供了冗餘。在地理上分佈的複製結構，它不存在單一節點故障問題，而且還可以將讀密集型的請求放到slave上。

級聯複製在一定程度上面確實解決了Master因爲所附屬的Slave過多而成爲瓶頸的問題，但是他並不能解決人工維護和出現異常需要切換後可能存在重新搭建Replication的問題。這樣就很自然的引申出了DualMaster與級聯複製結合的Replication架構，我稱之爲Master-Master-Slaves架構

和Master-Slaves-Slaves架構相比，區別僅僅只是將第一級Slave集羣換成了一臺單獨的Master，作爲備用Master，然後再從這個備用的Master進行復制到一個Slave集羣。

這種DualMaster與級聯複製結合的架構，最大的好處就是既可以避免主Master的寫入操作不會受到Slave集羣的複製所帶來的影響，同時主Master需要切換的時候也基本上不會出現重搭Replication的情況。但是，這個架構也有一個弊端，那就是備用的Master有可能成爲瓶頸，因爲如果後面的Slave集羣比較大的話，備用Master可能會因爲過多的SlaveIO線程請求而成爲瓶頸。當然，該備用Master不提供任何的讀服務的時候，瓶頸出現的可能性並不是特別高，如果出現瓶頸，也可以在備用Master後面再次進行級聯複製，架設多層Slave集羣。當然，級聯複製的級別越多，Slave集羣可能出現的數據延時也會更爲明顯，所以考慮使用多層級聯複製之前，也需要評估數據延時對應用系統的影響。

1.5 參考資料：

http://blog.sina.com.cn/s/blog_aed82f6f01019nzj.html

http://www.linuxidc.com/Linux/2015-02/112647.htm

http://www.cnblogs.com/kristain/articles/4142970.html

2 MySQL5.6的複製

2.1 半同步複製

由於Mysql的複製都是基於異步進行的，在特殊情況下不能保證數據的成功複製，因此在mysql5.5之後使用了來自google補丁，可以將Mysql的複製實現半同步模式。MySQL5.6的官方版本已經收錄了半同步複製功能，需要爲主服務器加載對應的插件。在Mysql的安裝目錄下的lib/plugin/目錄中具有對應的插件semisync_master.so，semisync_slave.so，其中semisync_master.so是主服務器上的插件，而semisync_slave.so則是從服務器上的插件。

隨着MySQL 5.6中引入了全局事務ID（GTIDs）

在主服務器的mysql服務器上執行如下命令

mysql> install pluginrpl_semi_sync_master soname 'semisync_master.so'; 安裝模塊

mysql> set global rpl_semi_sync_master_enabled = 1; 啓用半同步複製主節點

mysql> set global rpl_semi_sync_master_timeout = 1000; 超時時間

mysql> show variables like '%semi%'; 查看設置是否成功

在從服務器的mysql服務器上執行如下命令

mysql> install pluginrpl_semi_sync_slave soname 'semisync_slave.so'; 安裝模塊

mysql> set global rpl_semi_sync_slave_enabled = 1; 啓用半同步複製從節點

mysql> stop slave;

mysql> start slave;

mysql> show variables like '%semi%'; 查看設置是否成功

驗證半同步複製是否生效在主服務器上執行如下命令

mysql> show global status like 'rpl_semi%';

2.2 並行複製

MySQL 5.6版本也支持所謂的並行複製，但是其並行只是基於schema的，也就是基於庫的。如果用戶的MySQL數據庫實例中存在多個schema，對於從機複製的速度的確可以有比較大的幫助。

在下圖的紅色框框部分就是實現並行複製的關鍵所在。在MySQL 5.6版本之前，Slave服務器上有兩個線程I/O線程和SQL線程。I/O線程負責接收二進制日誌（更準確的說是二進制日誌的event），SQL線程進行回放二進制日誌。如果在MySQL 5.6版本開啓並行複製功能，那麼SQL線程就變爲了coordinator線程，coordinator線程主要負責以前兩部分的內容：

若判斷可以並行執行，那麼選擇worker線程執行事務的二進制日誌
若判斷不可以並行執行，如該操作是DDL，亦或者是事務跨schema操作，則等待所有的worker線程執行完成之後，再執行當前的日誌

這意味着coordinator線程並不是僅將日誌發送給worker線程，自己也可以回放日誌，但是所有可以並行的操作交付由worker線程完成。coordinator線程與worker是典型的生產者與消費者模型。

上述機制實現了基於schema的並行複製存在兩個問題，首先是crash safe功能不好做，因爲可能之後執行的事務由於並行複製的關係先完成執行，那麼當發生crash的時候，這部分的處理邏輯是比較複雜的。從代碼上看，5.6這裏引入了Low-Water-Mark標記來解決該問題，從設計上看（WL#5569），其是希望藉助於日誌的冪等性來解決該問題，不過5.6的二進制日誌回放還不能實現冪等性。另一個最爲關鍵的問題是這樣設計的並行複製效果並不高，如果用戶實例僅有一個庫，那麼就無法實現並行回放，甚至性能會比原來的單線程更差。而單庫多表是比多庫多表更爲常見的一種情形。

2.3 參考資料

http://jilili.blog.51cto.com/6617089/1203805

http://mp.weixin.qq.com/s?__biz=MjM5MjIxNDA4NA==&mid=205236417&idx=1&sn=15281c834348911cea106478aa819175&3rd=MzA3MDU4NTYzMw==&scene=6#rd

http://blog.itpub.net/24945919/viewspace-764369/

3 MySQL5.7的複製

3.1 真正的並行複製

MySQL 5.7纔可稱爲真正的並行複製，這其中最爲主要的原因就是slave服務器的回放與主機是一致的即master服務器上是怎麼並行執行的slave上就怎樣進行並行回放。不再有庫的並行複製限制，對於二進制日誌格式也無特殊的要求（基於庫的並行複製也沒有要求）。

MTS: Prepared transactions slave parallel applier，可見：WL#6314。該並行複製的思想最早是由MariaDB的Kristain提出，並已在MariaDB 10中出現，相信很多選擇MariaDB的小夥伴最爲看重的功能之一就是並行複製。

MySQL 5.7並行複製的思想簡單易懂，一言以蔽之：一個組提交的事務都是可以並行回放，因爲這些事務都已進入到事務的prepare階段，則說明事務之間沒有任何衝突（否則就不可能提交）。

爲了兼容MySQL 5.6基於庫的並行複製，5.7引入了新的變量slave-parallel-type，其可以配置的值有：

DATABASE：默認值，基於庫的並行複製方式
LOGICAL_CLOCK：基於組提交的並行複製方式

3.2 並行複製配置與調優

master_info_repository

開啓MTS功能後，務必將參數master_info_repostitory設置爲TABLE，這樣性能可以有50%~80%的提升。這是因爲並行複製開啓後對於元master.info這個文件的更新將會大幅提升，資源的競爭也會變大。在之前InnoSQL的版本中，添加了參數來控制刷新master.info這個文件的頻率，甚至可以不刷新這個文件。因爲刷新這個文件是沒有必要的，即根據master-info.log這個文件恢復本身就是不可靠的。在MySQL 5.7中，Inside君推薦將master_info_repository設置爲TABLE，來減小這部分的開銷。

slave_parallel_workers

若將slave_parallel_workers設置爲0，則MySQL 5.7退化爲原單線程複製，但將slave_parallel_workers設置爲1，則SQL線程功能轉化爲coordinator線程，但是隻有1個worker線程進行回放，也是單線程複製。然而，這兩種性能卻又有一些的區別，因爲多了一次coordinator線程的轉發，因此slave_parallel_workers=1的性能反而比0還要差，在Inside君的測試下還有20%左右的性能下降。

3.3 Enhanced Multi-Threaded Slave配置

說了這麼多，要開啓enhanced multi-threaded slave其實很簡單，只需根據如下設置：

# slave

slave-parallel-type=LOGICAL_CLOCK

slave-parallel-workers=16

master_info_repository=TABLE

relay_log_info_repository=TABLE

relay_log_recovery=ON

並行複製監控

複製的監控依舊可以通過SHOW SLAVE STATUS\G，但是MySQL 5.7在performance_schema架構下多了以下這些元數據表，用戶可以更細力度的進行監控：

mysql> show tables like 'replication%';

+---------------------------------------------+

| Tables_in_performance_schema (replication%) |

+---------------------------------------------+

| replication_applier_configuration |

| replication_applier_status |

| replication_applier_status_by_coordinator |

| replication_applier_status_by_worker |

| replication_connection_configuration |

| replication_connection_status |

| replication_group_member_stats |

| replication_group_members |

+---------------------------------------------+

8 rows in set (0.00 sec)

3.4 參考資料

http://mp.weixin.qq.com/s?__biz=MjM5MjIxNDA4NA==&mid=205236417&idx=1&sn=15281c834348911cea106478aa819175&3rd=MzA3MDU4NTYzMw==&scene=6#rd

4 複製延遲檢測

4.1 通過Slave狀態監控

在MySQL複製環境中，我們通常只根據 Seconds_Behind_Master 的值來判斷SLAVE的延遲。這麼做大部分情況下尚可接受，但並不夠準確，而應該考慮更多因素。

首先看 Relay_Master_Log_File 和 Master_Log_File 是否有差異；
如果Relay_Master_Log_File 和 Master_Log_File 是一樣的話，再來看Exec_Master_Log_Pos 和 Read_Master_Log_Pos 的差異，對比SQL線程比IO線程慢了多少個binlog事件；
如果Relay_Master_Log_File 和 Master_Log_File 不一樣，那說明延遲可能較大，需要從MASTER上取得binlog status，判斷當前的binlog和MASTER上的差距；

4.2 通過pt工具實時監控延遲

percona-toolkit源自Maatkit 和Aspersa工具，這兩個工具是管理mysql的最有名的工具，現在Maatkit工具已經不維護了，請大家還是使用percona-toolkit吧！這些工具主要包括開發、性能、配置、監控、複製、系統、實用六大類，作爲一個優秀的DBA，裏面有的工具非常有用，如果能掌握並加以靈活應用，將能極大的提高工作效率。

4.3 參考資料

http://blog.chinaunix.net/uid/20639775/list/1.html?sid=159653

http://www.jb51.net/article/75070.htm

http://www.cnblogs.com/zping/p/5678652.html

http://www.cnblogs.com/kevingrace/p/5685511.html

MySQL Replication 梳理詳解原

MySQL Replication

1 MySQL5.5以前的複製