xtrabackup原理

xtrabackup是基於InnoDB存儲引擎災難恢復的。它複製InnoDB的數據文件,儘管數據文件在內部是非一致性的,但在執行災難恢復時可以保證這些數據文件是一致的,並且可用。


官方原理

在InnoDB內部會維護一個redo日誌文件,我們也可以叫做事務日誌文件。事務日誌會存儲每一個InnoDB表數據的記錄修改。當InnoDB啓動時,InnoDB會檢查數據文件和事務日誌,並執行兩個步驟:它應用(前滾)已經提交的事務日誌到數據文件,並將修改過但沒有提交的數據進行回滾操作。


xtrabackup在啓動時會記住log sequence number(LSN),並且複製所有的數據文件。複製過程需要一些時間,所以這期間如果數據文件有改動,那麼將會使數據庫處於一個不同的時間點。這時,xtrabackup會運行一個後臺進程,用於監視事務日誌,並從事務日誌複製最新的修改。xtrabackup必須持續的做這個操作,是因爲事務日誌是會輪轉重複的寫入,並且事務日誌可以被重用。所以xtrabackup自啓動開始,就不停的將事務日誌中每個數據文件的修改都記錄下來。


上面就是xtrabackup的備份過程。接下來是準備(prepare)過程。在這個過程中,xtrabackup使用之前複製的事務日誌,對各個數據文件執行災難恢復(就像MySQL剛啓動時要做的一樣)。當這個過程結束後,數據庫就可以做恢復還原了。

以上的過程在xtrabackup的編譯二進制程序中實現。程序innobackupex可以允許我們備份MyISAM表和frm文件從而增加了便捷和功能。Innobackupex會啓動xtrabackup,直到xtrabackup複製數據文件後,然後執行FLUSH TABLES WITH READ LOCK來阻止新的寫入進來並把MyISAM表數據刷到硬盤上,之後複製MyISAM數據文件,最後釋放鎖。


備份MyISAM和InnoDB表最終會處於一致,在準備(prepare)過程結束後,InnoDB表數據已經前滾到整個備份結束的點,而不是回滾到xtrabackup剛開始時的點。這個時間點與執行FLUSH TABLES WITH READ LOCK的時間點相同,所以MyISAM表數據與InnoDB表數據是同步的。類似Oracle的,InnoDB的prepare過程可以稱爲recover(恢復),MyISAM的數據複製過程可以稱爲restore(還原)。


xtrabackup和innobackupex這兩個工具都提供了許多前文沒有提到的功能特點。手冊上有對各個功能都有詳細的介紹。簡單介紹下,這些工具提供瞭如流(streaming)備份,增量(incremental)備份等,通過複製數據文件,複製日誌文件和提交日誌到數據文件(前滾)實現了各種複合備份方式。


自己的理解

xtrabackup只能備份和恢復InnoDB表,而且只有ibd文件,frm文件它不管,恢復時就需要DBA提供frm。innobackupex可以備份和恢復MyISAM表以及frm文件,並且對xtrabackup也做了很好的封裝,所以可以使用innobackupex來備份MySQL數據庫。還有一個問題,就是innobackupex備份MyISAM表之前要對全庫進行加READ LOCK,阻塞寫操作,若備份是在從庫上進行的話會影響主從同步,造成延遲。對InnoDB表備份不會阻塞讀寫。


xtrabackup增量備份的原理是:

1)、首先完成一個完全備份,並記錄下此時檢查點LSN;

2)、然後增量備份時,比較表空間中每個頁的LSN是否大於上次備份的LSN,若是則備份該頁並記錄當前檢查點的LSN。


具體來說,首先在logfile中找到並記錄最後一個checkpoint(“last checkpoint LSN),然後開始從LSN的位置開始拷貝InnoDB的logfile到xtrabackup_logfile;然後開始拷貝全部的數據文件.ibd;在拷貝全部數據文件結束之後,才停止拷貝logfile。


所以xtrabackup_logfile文件在併發寫入很大時也會變得很大,佔用很多空間,需要注意。另外當我們使用--stream=tar或者遠程備份--remote-host時默認使用/tmp,但最好顯示用參數--tmpdir指定,以免把/tmp目錄佔滿影響備份以及系統其它正常服務。

因爲logfile裏面記錄全部的數據修改情況,所以即使在備份過程中數據文件被修改過了,恢復時仍然能夠通過解析xtrabackup_logfile保持數據的一致。

xtrabackup的增量備份只能用於InnoDB表,不能用在MyISAM表上。採用增量備份MySQL數據庫時xtrabackup會依據上次全備份或增量備份目錄對InnoDB表進行增量備份,對MyISAM表會進行全表複製。


流備份(streaming)可以將備份直接保存到遠程服務器上。

當執行恢復時,由於複製是不鎖表的所以此時數據文件都是不一致的,xtrabackup使用之前保存的redo log對各個數據文件檢查是否與事務日誌的checkpoint一致,執行恢復:

1)、根據複製數據文件時以及之後已提交事務產生的事務日誌進行前滾;

2)、將未提交的事務進行回滾。


這個過程就是MySQL數據庫宕機之後執行的crash recovery。


增量備份

在InnoDB中,每個page中都記錄LSN信息,每當相關數據發生改變,page的LSN就會自動增加,xtrabackup的增量備份就是依據這一原理進行的。xtrabackup將上次備份(完全備份集或者也是一個增量備份集)以來LSN改變的page進行備份。

所以,要做增量備份第一次就要做一個完全備份(就是將MySQL實例或者說要備份的數據庫表做一個完全複製,同時記錄LSN),之後可以基於此進行增量備份以及恢復。


增量備份優點:

1)、數據庫太大沒有足夠的空間全量備份,增量備份能有效節省空間,並且效率高;

2)、支持熱備份,備份過程不鎖表(針對InnoDB而言),不阻塞數據庫的讀寫;

3)、每日備份只產生少量數據,也可採用遠程備份,節省本地空間;

4)、備份恢復基於文件操作,降低直接對數據庫操作風險;

5)、備份效率更高,恢復效率更高。


恢復與還原

backup的恢復過程中包括恢復和還原兩個部分。

我們前面已經說了xtrabackup只備份InnoDB表的ibd文件,而innobackupex可以備份包括InnoDB表在內的其他存儲引擎的表的所有數據文件。由於不同引擎表備份時的不同,也會讓恢復過程看起來不一樣。


先來看看完全備份集的恢復。

在InnoDB表的備份或者更直接的說ibd數據文件複製的過程中,數據庫處於不一致的狀態,所以要將xtraback_logfile中尚未提交的事務進行回滾,以及將已經提交的事務進行前滾,使各個數據文件處於一個一致性狀態,這個過程叫做準備(prepare)


如果你是在一個從庫上執行的備份,那說明你沒有東西需要回滾,只是簡單的apply redo log就可以了。另外在prepare過程中可以使用參數--use-memory增大使用系統內存量從而提高恢復速度。


之後,我們就可以根據backup-my.cnf中的配置把數據文件複製回對應的目錄了,當然你也可以自己複製回去,但innobackupex都會幫我們完成。在這裏,對於InnoDB表來說是完成後準備動作,我們稱之爲恢復(recovery),而對於MyISAM表來說由於備份時是採用鎖表方式複製的,所以此時只是簡單的複製回來,不需要apply log,這個我們稱之爲還原(restore)

注:本文檔裏之所以使用恢復和還原,也是和其他數據庫比如Oracle看起來一樣。


對於增量備份的恢復過程,與完全備份集的恢復類似,只是有少許不同:

1)、恢復過程需要使用完全備份集和各個增量備份集,各個備份集的恢復與前面說的一樣(前滾和回滾),之後各個增量備份集的redo log都會應用到完全備份集中;

2)、對於完全備機集之後產生的新表,要有特殊處理方式,以便恢復後不丟表;

3)、要以完全備份集爲基礎,然後按順序應用各個增量備份集。


流備份和壓縮

提到流備份(streaming)就要說遠程備份和備份壓縮,先說流備份吧。

流備份是指備份的數據通過標準輸出STDOUT傳輸給tar程序進行歸檔,而不是單純的將數據文件保存到指定的備份目錄中,參數--stream=tar表示開啓流備份功能並打包。同時也可以利用流備份到遠程服務器上。

舉例來說,

$ innobackupex --stream=TAR ${BACKUP_DIR}/base | gzip > ${BACKUP_DIR}/base.tar.gz $ innobackupex --stream=TAR ${BACKUP_DIR}/base|ssh somebackupaddr “cat > ${DIR}/base.tar”


當然了,如果你使用了流備份,那麼增量備份也就不能用了,因爲增量備份需要參考次備份情況,而上次備份卻被打包或者壓縮了。

在我們現實使用中,更多的使用增量備份,至於歸檔壓縮我們可以通過腳本自主完成。


部分備份和恢復

xtrabackup可以只備份/恢復部分庫表,可以正則模式匹配或者是你想備份庫表的列表,但InnoDB表必須是獨立表空間,同時不能使用流備份功能。

1)、使用正則模式匹配備份部分庫表,需要使用參數--include,語句類似如下:

$ innobackupex --include=’^qb.*’ ${BACKUP_DIR}/part-base


2)、使用數據庫列表備份部分庫,需要使用參數--databases,語句類似如下:

$ innobackupex --databases=qb0 qb1 qb2 qb3 ${BACKUP_DIR}/part-base


3) 、使用表列表備份部分表,需要使用參數--tables-file,語句類似如下:

$ innobackupex --tables-list=${CONF_DIR}/tab.conf ${BACKUP_DIR}/part-base


注:在我們的現實應用中,很少會只備份集羣中部分庫表,所以只是瞭解此功能即可,若有現實需要可以參考percona官方資料以獲取更多信息。


能備份部分庫表,也就能根據完全備份集進行部分庫表的恢復,在現實中很少會用到,但還是說一下吧。

首先在準備prepare的過程中,使用參數--export將表導出,這個導出會將每個InnoDB表創建一個以.exp結尾的文件,這些文件爲之後的導入過程服務。

$ innobackupex --apply-log --export ${BACKUP_DIR}/base


然後將你需要恢復的表的ibd和exp文件複製到目標機器,在目標機器上執行導入:

mysql> create table t()engine=innodb; //此處需要DBA手動創建一個同結構的表或表已存在 mysql> ALTER TABLE t DISCARD TABLESPACE; $ cp t.ibd t.exp ${DATA_DIR}/${DB}/ mysql> ALTER TABLE t IMPORT TABLESPACE;

這樣的導出導入就可以保住恢復的表可以與數據庫其他表保持一致性了。


並行備份

xtrbackup還支持並行備份,默認情況下xtrabackup備份時只會開啓一個進程進行數據文件的備份,若配置參數--parallel=N可以讓xtrabackup開啓N個子進程對多個數據文件進行併發備份,這樣可以加快備份的速度。當然服務器的IO處理能力以及對服務器的影響也是要考慮的,所以另一個參數--throttle=IOS會與它同時使用,這個參數用來限制備份過程中每秒讀寫的IO次數,對服務器的IO是一個保護。


這兩個參數xtrabackup和innobackupex都支持,舉例如下:

$ innobackupex --parallel=4 --throttle=400 ${BACKUP_DIR}/part-base

注意:對同一個數據文件只會有一個進程在備份。


其他

xtrabackup在備份時主要的工作是做數據文件複製,它每次只會讀寫1MB的數據(即64個page,不能修改),xtrabackup逐頁訪問1MB數據,使用innodb的buf_page_is_corrupted()函數檢查此頁的數據是否正常,如果數據不正常,就重新讀取這一頁,最多重新讀取10次,如果還是失敗,備份就失敗了,退出。

在複製事務日誌的時候,每次讀寫512KB的數據,同樣不可以配置。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章