【學習目標】
1、pt-archiver工具的基本使用,和內部原理
2、理解過期數據歸檔和清理的方法
3、有哪些限制和注意事項
4、常常歸檔或者purge,一定要注意過濾字段,是否存在null, 日期字段是否存在zero date.
而null在MySQL數據庫類型的大小情況
【pt-archiver使用的場景】
1、清理線上過期數據
2、清理過期數據,並把數據歸檔到本地歸檔表中,或者遠端歸檔服務器
3、兩張表之間的數據不完全相同,希望合併。此時加上–ignore或–replace選項,可以輕鬆實現
4、導出線上數據,到線下數據作處理
1、歸檔和清理過期數據
1) 歸檔是把過期的數據從線上表的,移到另一張歸檔表中(或數據文件中);
清理過期數據,是把過期數據直接從線上表中清理刪除。
因爲大部分的應用中,只使用近期的數據(工作集數據),如最近六個月。
共同目的:去除掉應用程序不使用的部分數據,使得熱數儘可能的小。
2、歸檔和清理過期數據,都會把原表中的數據Delete掉,而大量Delete存在以下問題:
1)對於MyISAM表,大的Delete操作,整個過程會lock表。
2) 對於Innodb表,大的delete,導致一個長事務,使innodb性能下降,purge操作延遲,undo量大。
3)導致從庫延遲增大
3、使用分塊刪除原來數據, 如:delete xxx order by pk limit 1000;
這樣刪除比較整個刪除好很多,但清理越來越慢。
4、pt-archiver使用刪除的原理
二、pt-archiver的使用說明
用於清理過期數據purge
1、執行命令:pt-archiver --source h=127.0.0.1,P=58886,D=test,t=t_archive --no-check-charset --where 'insertdate<"2013-08-10"' --purge --limit=2
1) 注意--source後的DSN之間不能空格出現,否則會出錯。 --where條件的值,有字符串的,要用引號括起來。
2) --limit表示,每組一次刪除多少條數據(注意:如果數據比較多時,也可以設置大一些,減少循環次數),最終的清理操作,還是通過Where pK=xx來處理的;
整個流程邏輯,請見上圖的代碼部分。
執行全過程打印的general_log
46 Query USE `test`
46 Query SELECT /*!40001 SQL_NO_CACHE */ `id`,`name`,`insertdate` FROM `test`.`t_archive` FORCE INDEX(`PRIMARY`) WHERE (insertdate<"2013-08-10") LIMIT 2
46 Query DELETE FROM `test`.`t_archive` WHERE (`id` = '1')
46 Query commit
46 Query DELETE FROM `test`.`t_archive` WHERE (`id` = '11')
46 Query commit
46 Query SELECT /*!40001 SQL_NO_CACHE */ `id`,`name`,`insertdate` FROM `test`.`t_archive` FORCE INDEX(`PRIMARY`) WHERE (insertdate<"2013-08-10") AND ((`id` >= '11')) LIMIT 2
46 Query DELETE FROM `test`.`t_archive` WHERE (`id` = '12')
46 Query commit
46 Query DELETE FROM `test`.`t_archive` WHERE (`id` = '13')
46 Query commit
46 Query SELECT /*!40001 SQL_NO_CACHE */ `id`,`name`,`insertdate` FROM `test`.`t_archive` FORCE INDEX(`PRIMARY`) WHERE (insertdate<"2013-08-10") AND ((`id` >= '13')) LIMIT 2
46 Query DELETE FROM `test`.`t_archive` WHERE (`id` = '14')
46 Query commit
46 Query SELECT /*!40001 SQL_NO_CACHE */ `id`,`name`,`insertdate` FROM `test`.`t_archive` FORCE INDEX(`PRIMARY`) WHERE (insertdate<"2013-08-10") AND ((`id` >= '14')) LIMIT 2
46 Query commit
46 Quit
2、用於把數據導出文件,不用刪除原表中數據:
命令使用:
pt-archiver --source h=127.0.0.1,P=58886,D=test,t=t_info_refresh --no-check-charset --where 'AddTime>"2013-05-02"' --progress 4000 --no-delete --file "/tmp/pt-archiver.dat" --limit=10000
參數說明:
--statistics 結束的時候給出統計信息:開始的時間點,結束的時間點,查詢的行數,歸檔的行數,刪除的行數,以及各個階段消耗的總的時間和比例,便於以此進行優化。
--progress 每處理progress指定的行數後,就打印一次信息
--no-delete :表示不刪除原來的數據,注意:如果不指定此參數,所有處理完成後,都會清理原表中的數據。
導出數據的基本原理:
通過“過濾條件”,得在此範圍內的PK的最大值和最小值 , 然後通過PK索引, 過濾條件 + pk <此範圍的最大值 + pk >(此範圍內pk的最小值+每次增長limit指定的數) + limit. 這樣直到處理完成。
SELECT /*!40001 SQL_NO_CACHE */ `id`,`infoid`,`sortid`,`addtime`,`cateid`,`userid`,`distribution`,`state` FROM `test`.`t_info_refresh` FORCE INDEX(`PRIMARY`) WHERE (A
ddTime>"2013-05-02") AND (`id` < '255410336') AND ((`id` > '255043917')) LIMIT 10000
3、把數據歸檔到線下數據庫(字符集問題是否影響)
使用命令:是從線上數據表,歸檔到指定的線下數據。
pt-archiver --source h=127.0.0.1,P=58886,D=test,t=t_info_refresh --dest h=10.5.12.13,P=58886,u=archiver,p=123,D=test,t=t_info_refresh --no-check-charset --where 'AddTime>"2013-05-02"' --progress 5000 --no-delete --limit=10000 --statistics