MySQL過期數據歸檔和清理--pt--archiver

【學習目標】

1、pt-archiver工具的基本使用，和內部原理

2、理解過期數據歸檔和清理的方法

3、有哪些限制和注意事項

4、常常歸檔或者purge，一定要注意過濾字段，是否存在null, 日期字段是否存在zero date.

而null在MySQL數據庫類型的大小情況

【pt-archiver使用的場景】

1、清理線上過期數據

2、清理過期數據，並把數據歸檔到本地歸檔表中，或者遠端歸檔服務器

3、兩張表之間的數據不完全相同，希望合併。此時加上–ignore或–replace選項，可以輕鬆實現

4、導出線上數據，到線下數據作處理

1、歸檔和清理過期數據

1）歸檔是把過期的數據從線上表的，移到另一張歸檔表中（或數據文件中）；

清理過期數據，是把過期數據直接從線上表中清理刪除。

因爲大部分的應用中，只使用近期的數據（工作集數據),如最近六個月。

共同目的：去除掉應用程序不使用的部分數據，使得熱數儘可能的小。

2、歸檔和清理過期數據，都會把原表中的數據Delete掉，而大量Delete存在以下問題：

1）對於MyISAM表，大的Delete操作，整個過程會lock表。

2) 對於Innodb表，大的delete，導致一個長事務，使innodb性能下降，purge操作延遲,undo量大。

3）導致從庫延遲增大

3、使用分塊刪除原來數據，如：delete xxx order by pk limit 1000;

這樣刪除比較整個刪除好很多，但清理越來越慢。

4、pt-archiver使用刪除的原理

二、pt-archiver的使用說明

用於清理過期數據purge

1、執行命令：pt-archiver --source h=127.0.0.1,P=58886,D=test,t=t_archive --no-check-charset --where 'insertdate<"2013-08-10"' --purge --limit=2

1）注意--source後的DSN之間不能空格出現，否則會出錯。 --where條件的值，有字符串的，要用引號括起來。

2) --limit表示，每組一次刪除多少條數據（注意：如果數據比較多時，也可以設置大一些，減少循環次數），最終的清理操作，還是通過Where pK=xx來處理的；

整個流程邏輯，請見上圖的代碼部分。

執行全過程打印的general_log

46 Query USE `test`

46 Query SELECT /*!40001 SQL_NO_CACHE */ `id`,`name`,`insertdate` FROM `test`.`t_archive` FORCE INDEX(`PRIMARY`) WHERE (insertdate<"2013-08-10") LIMIT 2

46 Query DELETE FROM `test`.`t_archive` WHERE (`id` = '1')

46 Query commit

46 Query DELETE FROM `test`.`t_archive` WHERE (`id` = '11')

46 Query commit

46 Query SELECT /*!40001 SQL_NO_CACHE */ `id`,`name`,`insertdate` FROM `test`.`t_archive` FORCE INDEX(`PRIMARY`) WHERE (insertdate<"2013-08-10") AND ((`id` >= '11')) LIMIT 2

46 Query DELETE FROM `test`.`t_archive` WHERE (`id` = '12')

46 Query commit

46 Query DELETE FROM `test`.`t_archive` WHERE (`id` = '13')

46 Query commit

46 Query SELECT /*!40001 SQL_NO_CACHE */ `id`,`name`,`insertdate` FROM `test`.`t_archive` FORCE INDEX(`PRIMARY`) WHERE (insertdate<"2013-08-10") AND ((`id` >= '13')) LIMIT 2

46 Query DELETE FROM `test`.`t_archive` WHERE (`id` = '14')

46 Query commit

46 Query SELECT /*!40001 SQL_NO_CACHE */ `id`,`name`,`insertdate` FROM `test`.`t_archive` FORCE INDEX(`PRIMARY`) WHERE (insertdate<"2013-08-10") AND ((`id` >= '14')) LIMIT 2

46 Query commit

46 Quit

2、用於把數據導出文件，不用刪除原表中數據：

命令使用：

pt-archiver --source h=127.0.0.1,P=58886,D=test,t=t_info_refresh --no-check-charset --where 'AddTime>"2013-05-02"' --progress 4000 --no-delete --file "/tmp/pt-archiver.dat" --limit=10000

參數說明：

--statistics 結束的時候給出統計信息：開始的時間點，結束的時間點，查詢的行數，歸檔的行數，刪除的行數，以及各個階段消耗的總的時間和比例，便於以此進行優化。

--progress 每處理progress指定的行數後，就打印一次信息

--no-delete ：表示不刪除原來的數據，注意：如果不指定此參數，所有處理完成後，都會清理原表中的數據。

導出數據的基本原理：

通過“過濾條件”，得在此範圍內的PK的最大值和最小值，然後通過PK索引，過濾條件 + pk <此範圍的最大值 + pk >（此範圍內pk的最小值+每次增長limit指定的數） + limit. 這樣直到處理完成。

SELECT /*!40001 SQL_NO_CACHE */ `id`,`infoid`,`sortid`,`addtime`,`cateid`,`userid`,`distribution`,`state` FROM `test`.`t_info_refresh` FORCE INDEX(`PRIMARY`) WHERE (A

ddTime>"2013-05-02") AND (`id` < '255410336') AND ((`id` > '255043917')) LIMIT 10000

3、把數據歸檔到線下數據庫（字符集問題是否影響）

使用命令：是從線上數據表，歸檔到指定的線下數據。

pt-archiver --source h=127.0.0.1,P=58886,D=test,t=t_info_refresh --dest h=10.5.12.13,P=58886,u=archiver,p=123,D=test,t=t_info_refresh --no-check-charset --where 'AddTime>"2013-05-02"' --progress 5000 --no-delete --limit=10000 --statistics

MySQL過期數據歸檔和清理--pt--archiver

linux啓動mysql提示3306端口被佔用一解

在CentOS / RHEL 7上找不到fuser命令

Hive對錶建立索引

Operating system error number 2 in a file operation.

rabbitmq權限設置

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結