MySQL Group Replication調研剖析

一、MySQL複製的三種模式

MySQL當前存在的三種複製模式有：異步模式、半同步模式和組複製模式，先了解一下三種模式的工作方式。

1、MySQL Asynchronous Replication(異步複製)

異步複製是MySQL最早的也是當前使用最多的複製模式，異步複製提供了一種簡單的主-從複製方法，包含一個主庫（master）和備庫（一個，或者多個）之間，主庫執行並提交了事務，在這之後（因此才稱之爲異步），這些事務纔在從庫上重新執行一遍（基於statement）或者變更數據內容（基於row），主庫不檢測其從庫上的同步情況。在服務器負載高、服務壓力大的情況下主從產生延遲一直是其詬病。工作流程簡圖如下：

2、MySQL Semisynchronous Replication（半同步複製）

MySQL5.5的版本在一步同步的基礎之上，以插件的形式實現了一個變種的同步方案，稱之爲半同步（semi-sync replication）。這個插件在源生的異步複製上，添加了一個同步的過程：當從庫接收到了主庫的變更（即事務）時，會通知主庫。主庫上的操作有兩種：接收到這個通知以後纔去commit事務；接受到之後釋放session。這兩種方式是由主庫上的具體配置決定的。當主庫收不到從庫的變更通知超時時，由半同步複製自動切換到異步同步，這樣就極大了保證了數據的一致性（至少一個從庫），但是在性能上有所下降，特別是在網絡不穩定的情況下，半同步和同步之間來回切換，對正常的業務是有影響的。其工作流程簡圖如下：

3、Group Replication（組複製）

不論是異步複製還是半同步複製，都是一個主下面一個從或是多個從的模式，在高併發下高負載下，都存在延遲情況，此時如果主節點出現異常，那麼就會出現數據不一致的情況，數據可能會丟，在金融級數據庫中是不能容忍的。在這種情況下，急需出現一種模式來解決這些問題。在MySQL5.7.17的版本中，帶着這些期待，新的複製模式組複製產生並GA了（本文的測試等數據均基於MySQL5.7.17）。

組複製的工作流程圖如下：

二、組複製的工作原理

MySQL組複製是一個MySQL插件，它建立在現有的MySQL複製基礎結構上，利用了二進制日誌，基於行的日誌記錄和全局事務標識符等功能。它集成了當前的MySQL框架，如性能模式、插件和服務基礎設施等。

組複製（Group Replication）基於分佈式一致性算法(Paxos協議的變體)實現，一個組允許部分節點掛掉，只要保證絕大多數節點仍然存活並且之間的通訊是沒有問題的，那麼這個組對外仍然能夠提供服務，它是一種被使用在容錯系統中的技術。Group Replication（複製組）是由能夠相互通信的多個服務器（節點）組成的。在通信層，Group replication實現了一系列的機制：比如原子消息（atomic message delivery）和全序化消息（total ordering of messages）。這些原子化，抽象化的機制，爲實現更先進的數據庫複製方案提供了強有力的支持。MySQL Group Replication正是基於這些技術和概念，實現了一種多主全更新的複製協議。簡而言之，一個Group Replication就是一組節點，每個節點都可以獨立執行事務，而讀寫事務則會在於group內的其他節點進行協調之後再commit。因此，當一個事務準備提交時，會自動在group內進行原子性的廣播，告知其他節點變更了什麼內容/執行了什麼事務。這種原子廣播的方式，使得這個事務在每一個節點上都保持着同樣順序。這意味着每一個節點都以同樣的順序，接收到了同樣的事務日誌，所以每一個節點以同樣的順序重演了這些事務日誌，最終整個group保持了完全一致的狀態。然而，不同的節點上執行的事務之間有可能存在資源爭用。這種現象容易出現在兩個不同的併發事務上。假設在不同的節點上有兩個併發事務，更新了同一行數據，那麼就會發生資源爭用。面對這種情況，Group Replication判定先提交的事務爲有效事務，會在整個group裏面重放，後提交的事務會直接中斷，或者回滾，最後丟棄掉。因此，這也是一個無共享的複製方案，每一個節點都保存了完整的數據副本。

從其工作的原理可以看出，Group Replication基於Paxos協議的一致性算法校驗事務執行是否有衝突，然後順序執行事務，達到最終的數據一致性，也就意味着部分節點可以存在延遲。可以設置多主同時寫入和單主寫入，通過設置group_replication_single_primary_mode來進行控制是多主還是單主，官方推薦單主寫入，允許延遲，但延遲過大，則會觸發限流規則（可配置的），整個集羣會變的很慢，性能大打折扣。

三、組複製的程序結構

在MySQL的底層，GR增加了另外的API層來實現所需要的功能。程序結構上，GRAPI主要分爲三部分：

1:capture 追蹤當前正在執行的事務的上下文。

2:applier 執行遠程事務傳輸到本地的日誌到本地數據庫。

3:recovery 負責分佈式環境下的節點恢復，以及相關的數據回追，失敗處理等。

在這幾個主要API層的下面，是統一的複製協議邏輯處理層，這一層主要是統一應用層的各種調用。在更下層，則是通用程度更高的分佈式通訊層，處於調用便利，分佈式通訊曾對上提供使用的API，API的下面，是Paxos實現的分佈式通訊協議組件，這個組件與集羣中其他節點一起，形成一個虛擬概念化的分佈式集羣。

四、消息壓縮（Message Compression）

這個壓縮主要是指MySQL的bin-log壓縮，所使用的壓縮算法是LZ4。當網絡帶寬是瓶頸時，消息壓縮可以在組通信級別提供高達30-40％的吞吐量改進，這在網絡傳輸壓力比較大的組中是尤爲重要的。LZ4能很好的支持多線程環境，獲得更高的壓縮和解壓速度。以下是壓縮算法LZ4的壓縮和解壓情況：

壓縮發生在組通信引擎級別，之前數據被交給組通信線程，所以它發生在mysql用戶會話線程的上下文中。事務有效網絡負載可以在被髮送到組之前被壓縮，並且在被接收時被解壓縮。壓縮是有條件的，並且取決於配置的閾值。默認情況下啓用壓縮，此外，它並不要求組中的所有服務器節點都啓用壓縮機制，在接收到消息時，成員檢查消息信封以驗證它是否被壓縮，如果需要，則成員解壓縮該事務，然後將其傳遞到上層。

默認情況下啓用壓縮，閾值爲1000000字節（1MB）。壓縮閾值（以字節爲單位）可以設置爲大於默認值。在這種情況下，只有具有大於閾值的有效負載的事務被壓縮。下面是如何設置壓縮閾值的示例。

STOP GROUP_REPLICATION;
SET GLOBAL group_replication_compression_threshold= 2097152;
START GROUP_REPLICATION;

這將壓縮閾值設置爲2MB。如果事務生成的有效內容大於2MB的複製消息，例如大於2MB的二進制日誌事務條目，則會對其進行壓縮。禁用壓縮設置閾值爲0。注意：修改這個閾值是需要重啓組複製的。

消息壓縮流程圖如下：

五、組複製的要求和限制

1、限制和要求

1. 所有涉及的數據都必須發生在InnoDB存儲引擎的表內。

2. 所有的表必須有明確的主鍵定義。

3. 網絡地址只支持IPv4。

4. 需要低延遲，高帶寬的網絡。

5. 目前集羣限制最多允許9個節點。

6. 必須啓用binlog。

7. binlog 格式必須是row格式。

8. 必須打開gtid模式。

9. 複製相關信息必須使用表存儲。

10.事務寫集合（Transaction write set extraction）必須打開。（這個目前與savepoint衝突，這也是導致mysqldump無法備份GR實例的原因）

11. log slave updates必須打開。

12. binlog的checksum目前不支持。

13. 由於事務寫集合的干擾，無法使用savepoint。

14. SERIALIZABLE 隔離級別目前不支持。

15. 對同一個對象，在集羣中不同的實例上，並行地執行DDL（哪怕是相互衝突的DDL）是可行的，但會導致數據一致性等方面的錯誤，目前階段不支持在多節點同時執行同一對象的DDL。

16. 外鍵的級聯約束操作目前的實現並不完全支持，不推薦使用。

2、組複製的相關配置

依據組複製的要求和限制，以下設置根據MySQL組複製要求配置複製：

server_id = 1

gtid_mode = ON

enforce_gtid_consistency = ON

master_info_repository = TABLE

relay_log_info_repository = TABLE

binlog_checksum = NONE

log_slave_updates = ON

log_bin = binlog

binlog_format = ROW

此時my.cnf文件可確保服務器配置，並指示實例化一個給定的配置下的複製基礎設施。以下部分配置服務器的組複製設置。具體參數比較簡單，不在這裏贅述，可參見官方說明：

transaction_write_set_extraction = XXHASH64

loose-group_replication_group_name =“aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa”

loose-group_replication_start_on_boot = off

loose-group_replication_local_address ="127.0.0.1:24901”

loose-group_replication_group_seeds =“127.0.0.1:24901,127.0.0.1:24902,127.0.0.1:24903”

loose-group_replication_bootstrap_group = off

具體的組複製安裝部署比較簡單，網上和官方說明都有說明，在這裏就不闡述安裝部署這塊了。

六、組複製的多主和單主模式（Multi-Primary or Single-Primary Mode）

組複製分爲多主和單主兩種模式，默認是單主模式，也是官方推薦的組複製模式。單個集羣中不能同時使用兩種模式，例如一個配置在多主模式，而另一個在單主模式。要在模式之間切換，需要使用不同的操作配置重新啓動集羣。無論部署模式如何，組複製不處理客戶端故障切換，它必須由應用程序本身、連接器或中間件框架（如代理或路由器）等處理。

1、單主模式

在此模式下，組具有設置爲讀寫模式的單主實例，主節點通常是用於解析組的第一個服務器，組中的其他其他節點都自動設置爲只讀模式（即，超級只讀），所有其他加入的節點自動識別主節點並設置爲自己爲只讀。

在單主機模式下，將禁用在多主機模式下部署的某些檢查，因爲系統會強制每次只有一個寫入節點。例如，允許對具有級聯外鍵的表進行更改，而在多主模式下不允許。在主節點故障時，自動選舉機制選擇下一個主節點。通過按字典順序（使用其UUID）並選擇列表中的第一個節點來排序剩餘的節點來選擇下一個主節點。如果主節點從組中刪除，則執行選擇，並從組中的其餘節點中選擇新的主節點，這個選擇按照詞典順序排序節點UUID並選擇第一個來執行。一旦選擇了新的主節點，其他節點將設置爲從節點，從節點爲只讀。如下圖：

2、多主模式

在多主模式下，沒有單個主模式的概念，也沒有選舉程序，因爲沒有節點發揮任何特殊的作用。加入組時，所有服務器都設置爲讀寫模式。

在多主要模式下部署時，將檢查語句以確保它們與模式兼容。在以多主模式部署組複製時進行以下檢查：

1:如果事務在SERIALIZABLE隔離級別下執行，則在將其與組同步時，它的提交將失敗。

2:如果事務對具有級聯約束的外鍵執行，則事務在與組同步時無法提交。

這些檢查可通過設置選項停用 group_replication_enforce_update_everywhere_checks 到FALSE。當在單主要方式部署，該選項必須設置爲 FALSE。如下圖：

七、運維相關問題

1、故障切換問題

目前MySQL官方沒有發佈連接組複製專用的客戶端（如MongoDB連接複製集的客戶端），在實際的應用中如果發生故障，需要客戶端自己來處理。對於單主模式的話，如果主節點發生故障，客戶端需要判斷新的主節點是誰，然後把寫切換到新的主節點，基本上和當前的異步同步的主從切換一樣，並且新的主節點是集羣自動產生，不可控；多主模式需要在客戶端進行節點可用性檢查，當其中的一個寫節點不可用時自動使用其他可用節點。

在實際生產中，綜合兩種組複製模式的故障切換，可以使用多主模式，指定其中一個節點爲主節點，其他節點置爲只讀節點，這樣主節點故障時，新的主節點可控。

2、大事務支持問題

目前版本測試併發進行大數據操作和DDL操作時，kill掉大事務，有機率造成集羣不可用；在insert into …….select……limit……這種大事務支持不好，可能造成集羣不用；多主模式進行DDL操作需要集羣內所有節點都爲ONLINE狀態纔可執行，處於ERROR和RECOVERING狀態時有機率導致集羣堵塞，嚴重時集羣不可用。

3、備份問題

在組複製集羣其中的一個節點上執行數據庫備份時，不管使用mysqldump（這個不能使用--single-transaction參數，生產中不建議使用mysqldump備份集羣數據）或是使用xtrabackup的QPS下降40%，並且備份節點基本停止讀寫。在測試備份文件導入數據時，多主模式要比單主模式慢。推薦使用組複製+異步複製方式，在異步複製的從節點上進行數據庫備份。

4、二進制日誌刪除問題

因爲組複製同步還是基於二進制日誌來進行同步的，清理某個節點bin-log時，必須判定這個日誌文件是否還在使用，如果在使用，則絕對不能刪除，如果刪除，則整個集羣直接ERROR。

5、同步延遲問題

目前MySQL5.7.17的版本中無法直觀查看節點同步延遲，也無法獲取延遲多少，不管是時間或事物數，這個打開MySQL的Debug模式，可以獲取到節點的延遲事務情況。

組複製的延遲對集羣是有影響的，一旦出現延遲（默認延遲25000個事務），則啓動流量控制（Flow Control），每個週期性能衰減當前的10%,直到集羣不可用（但集羣節點狀態爲online），單個節點慢整個集羣全慢。

集羣中的每個節點都會驗證並應用該組提交的事務，有關校驗和應用程序過程的統計信息對於瞭解應用程序隊列如何增長，已找到多少衝突，檢查了多少事務，在哪裏提交了哪些事務等等非常有用。表 performance_schema.replication_group_member_stats 提供與事務認證過程的相關信息，但沒有延遲信息。相關字段解釋如下：

字段	描述
Channel_name	組複製通道的名稱。
Member_ID	代表當前連接到的成員服務器UUID。組中的每個節點具有不同的值，是一個唯一鍵，因爲它對每個成員是唯一的。
Count_Transactions_in_queue	隊列中等待衝突檢測檢查的事務數。一旦檢查到衝突，並且他們通過檢查，他們將排隊等待應用。
Count_transactions_checked	表示已檢查衝突的事務數。
Count_conflicts_detected	表示未通過沖突檢測檢查的事務數。
Count_transactions_validating	表示衝突檢測數據庫的當前大小（每個事務經過驗證的數據庫）。
Transactions_committed_all_members	表示已在當前視圖的所有成員上成功提交的事務。這以固定的時間間隔更新。
Last_conflict_free_transaction	顯示最後一次無衝突校驗檢查的事務標識符。

6、數據一致性問題

不管是多寫還是單寫，都並非是強一致性，均允許有延遲，他在校驗完事務是否衝突後把當前廣播到各個節點並確定各個節點收到事務後即進入下一個事物的衝突檢測，此時每個節點只是拿到了所有事務的執行序列，保證了事務最終順序執行，從而保證數據的最終一致性，但同一時刻並非強一致性的。

7、節點故障腦裂問題

節點越多性能損耗越大，三個節點比較合適。節點故障可能有腦裂等問題：如5個節點分佈在兩個機房，機房間網絡斷掉分爲兩個部分，2個集羣的機房不可用，3個節點的可用，而三個節點的機房網絡有問題，此時如果想使兩個節點的機房可用，需要重新對兩個節點做集羣重組，三個節點的就無法恢復到兩個節點中去；三節點中其中一個節點宕機，其他兩個正常節點可用，故障節點重啓沒有加入到集羣時，此時這個節點以單實例存在可讀寫，此時會發生腦裂。

8、網絡延遲問題

測試過程中使用TC命令來模擬網絡延遲：

tc qdisc add dev eth0 root netem delay 50ms 10ms 增加網絡延遲50ms，10ms左右的浮動

tc qdisc del dev eth0 root netem delay 50ms 10ms 刪除網絡延遲

經過測試網絡延遲對比組複製MySQL的QPS：網絡延遲設置50ms和正常的對比，QPS降低至少1/3，甚至1/2，網絡延遲對性能影響挺大。以下是測試情況：

9、彈性擴展問題

MySQL官方網站提到了組複製的彈性自動擴展，經過實際測試，這種擴展在生產中是不現實的。可用於生產的彈性擴展要求新加入一個集羣，集羣中的數據完全由集羣來完成自動同步，但由於組複製是基於二進制日誌來進行同步的，生產中是不可能完整保留全部的二進制日誌，在新加入的節點需要先備份出集羣的全量數據，然後根據同步位置去追事務達到數據的一致後節點狀態online狀態，其實和之前異步同步搭建主從一樣。並且官方提示如果恢復時的延遲過大，可能也無法正常達到追到最新數據的位置。

10、客戶端連接問題

官方說明中關於故障處理的時候有一句話：組複製不處理客戶端故障切換，它必須由應用程序本身，連接器或中間件框架（如代理或路由器）處理。官方一再強調MySQL組複製提供了高可用、高彈性、可靠的MySQL服務，那麼官方是否提供一套類似MongoDB複製集的客戶端組件來支持那？

目前的解決方法就是和異步複製的切換差不多，使用域名切換或是自己實現一套高可用的客戶端連接方式。但就目前來說效率最高的是結合自己的業務，修改組複製故障處理的源碼，當檢測到寫節點故障時結合自己的域名切換來處理。但這樣對DBA來說需要源碼開發能力，相對要求比較高。

11、查找主節點IP問題

在單主模式下，不能直觀的獲取主庫的IP地址，使用以下命令可以獲取到主節點的UUID：

mysql> SELECT VARIABLE_VALUE FROM performance_schema.global_status WHERE VARIABLE_NAME ='group_replication_primary_member';

+ -------------------------------------- +

| VARIABLE_VALUE |

+ -------------------------------------- +

| 69e1a3b8-8397-11e6-8e67-bf68cbc061a4 |

+ -------------------------------------- +

1行（0,00秒）

使用SELECT * FROM performance_schema.replication_group_members可以查看到UUID對應到的MEMBER_HOST，而MEMBER_HOST指的是主機名，需要在MySQL的配置文件中指定report-host爲IP地址，這樣就可以兩個表關聯查詢到主庫的IP地址。

八、總結

從測試的情況來看，對大事務等的支持不夠，運維管理方面做的不友好，相關組複製的配套監控、客戶端等不完善，有一部分問題是可以規避和曲線解決的，有一部分需要源碼層面的支持；在性能上和PXC對比，要優於PXC，這個和各自的複製協議不同分不開的。

MySQL組複製提供了高可用、高彈性、可靠的MySQL服務，旨在打造金融級MySQL集羣。在忽略網絡延遲的情況，可以輕鬆的實現多活和異地調用就近寫庫，這一點是業務上比較期待的。組複製是MySQL未來的一個發展趨勢，相信在未來的版本中會更加的完善，期待成熟版本。

參考文檔：http://dev.mysql.com/doc/refman/5.7/en/group-replication.html

MySQL Group Replication調研剖析

1、MySQL Asynchronous Replication(異步複製)

2、MySQL Semisynchronous Replication（半同步複製）

3、Group Replication（組複製）

二、組複製的工作原理

三、組複製的程序結構

四、消息壓縮（Message Compression）

五、組複製的要求和限制

1、限制和要求

2、組複製的相關配置

六、組複製的多主和單主模式（Multi-Primary or Single-Primary Mode）

1、單主模式

2、多主模式

七、運維相關問題

1、故障切換問題

2、大事務支持問題

3、備份問題

4、二進制日誌刪除問題

5、同步延遲問題

6、數據一致性問題

7、節點故障腦裂問題

8、網絡延遲問題

9、彈性擴展問題

10、客戶端連接問題

11、查找主節點IP問題

八、總結

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

未來數據庫發展暢想

zabbix的數據庫優化

zabbix的數據庫優化

2019 CRUG年會暨KV數據庫最新前沿技術發展路徑研討會

Amazon Aurora:高吞吐量的雲原生關係數據庫的設計考量

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結