頭疼！百萬級 MySQL 的數據量，如何快速完成數據遷移？

原創

亂世當空

2021-04-07 21:25

背景

上個月跟朋友一起做了個微信小程序，趁着5.20節日的熱度，兩個禮拜內迅速積累了一百多萬用戶，我們在小程序頁面增加了收集formid的埋點，用於給微信用戶發送模板消息通知。

這個小程序一開始的後端邏輯是用douchat框架寫的，使用框架自帶的dc_mp_fans表存儲微信端授權登錄的用戶信息，使用dc_mp_tempmsg表存儲formid。截止到目前，收集到的數據超過380萬，很大一部分formid都已經成功使用給用戶發送過模板通知，起到了較好的二次推廣的效果。

隨着數據量的增大，之前使用的服務器空間開始有點不夠用，最近新寫了一個專門用於做小程序後臺開發的框架，於是想把原來的數據遷移到新系統的數據庫。買了一臺4核8G的機器，開始做數據遷移。下面對遷移過程做一個簡單的記錄。

方案選擇

mysqldump遷移

平常開發中，我們比較經常使用的數據備份遷移方式是用mysqldump工具導出一個sql文件，再在新數據庫中導入sql來完成數據遷移。試驗發現，通過mysqldump導出百萬級量的數據庫成一個sql文件，大概耗時幾分鐘，導出的sql文件大小在1G左右，然後再把這個1G的sql文件通過scp命令複製到另一臺服務器，大概也需要耗時幾分鐘。在新服務器的數據庫中通過source命令來導入數據，我跑了一晚上都沒有把數據導入進來，cpu跑滿。

腳本遷移

直接通過命令行操作數據庫進行數據的導出和導入是比較便捷的方式，但是數據量較大的情況下往往會比較耗時，對服務器性能要求也比較高。如果對數據遷移時間要求不是很高，可以嘗試寫腳本來遷移數據。雖然沒有實際嘗試，但是我想過大概有兩種腳本方案。

第一種方式，在遷移目標服務器跑一個遷移腳本，遠程連接源數據服務器的數據庫，通過設置查詢條件，分塊讀取源數據，並在讀取完之後寫入目標數據庫。這種遷移方式效率可能會比較低，數據導出和導入相當於是一個同步的過程，需要等到讀取完了才能寫入。如果查詢條件設計得合理，也可以通過多線程的方式啓動多個遷移腳本，達到並行遷移的效果。

第二種方式，可以結合redis搭建一個“生產+消費”的遷移方案。源數據服務器可以作爲數據生產者，在源數據服務器上跑一個多線程腳本，並行讀取數據庫裏面的數據，並把數據寫入到redis隊列。目標服務器作爲一個消費者，在目標服務器上也跑一個多線程腳本，遠程連接redis，並行讀取redis隊列裏面的數據，並把讀取到的數據寫入到目標數據庫。這種方式相對於第一種方式，是一種異步方案，數據導入和數據導出可以同時進行，通過redis做數據的中轉站，效率會有較大的提升。

可以使用go語言來寫遷移腳本，利用其原生的併發特性，可以達到並行遷移數據的目的，提升遷移效率。

文件遷移

第一種遷移方案效率太低，第二種遷移方案編碼代價較高，通過對比和在網上找的資料分析，我最終選擇了通過mysql的select data into outfile file.txt、load data infile file.txt into table的命令，以導入導出文件的形式完成了百萬級數據的遷移。

遷移過程

在源數據庫中導出數據文件

  select * from dc_mp_fans into outfile '/data/fans.txt';

複製數據文件到目標服務器

zip fans.zip /data/fans.txtscp fans.zip root@ip:/data/

在目標數據庫導入文件

unzip /data/fans.zip
load data infile '/data/fans.txt' into table wxa_fans(id,appid,openid,unionid,@dummy,created_at,@dummy,nickname,gender,avatar_url,@dummy,@dummy,@dummy,@dummy,language,country,province,city,@dummy,@dummy,@dummy,@dummy,@dummy,@dummy,@dummy,@dummy,@dummy);

按照這麼幾個步驟操作，幾分鐘內就完成了一個百萬級數據表的跨服務器遷移工作。

注意項

mysql安全項設置

在mysql執行load data infile和into outfile命令都需要在mysql開啓了secure_file_priv選項，可以通過show global variables like '%secure%';查看mysql是否開啓了此選項，默認值Null標識不允許執行導入導出命令。通過vim /etc/my.cnf修改mysql配置項，將secure_file_priv的值設置爲空：

[mysqld]  secure_file_priv=''

則可通過命令導入導出數據文件。

導入導出的數據表字段不對應

上面示例的從源數據庫的dc_mp_fans表遷移數據到目標數據庫的wxa_fans表，兩個數據表的字段分別爲：- dc_mp_fans

wxa_fans

在導入數據的時候，可以通過設置字段名來匹配目標字段的數據，可以通過@dummy丟棄掉不需要的目標字段數據。

總結

結合本次數據遷移經歷，總結起來就是：小數據量可以使用mysqldump命令進行導入導出，這種方式簡單便捷。- 數據量較大，且有足夠的遷移耐心時，可以選擇自己寫腳本，選擇合適的並行方案遷移數據，這種方式編碼成本較高。- 數據量較大，且希望能在短時間內完成數據遷移時，可以通過mysql導入導出文件的方式來遷移，這種方式效率較高。

來源：idoubi.cc/2018/06/30/mysql-data-migration

本文分享自微信公衆號 - JAVA高級架構（gaojijiagou）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

頭疼！百萬級 MySQL 的數據量，如何快速完成數據遷移？

背景

方案選擇

遷移過程

注意項

總結

致遠OA及相關OA系統集成與二次開發

System.Object未被引用的程序集中定義

Java 信號量（semaphore）搭配CountDownLatch 實現多線程處理循環內邏輯並限制創建線程數

【面試準備】項目經驗——接口自動化項目

架構必知：MySQL 如何實現 ACID ？

別去外包

撐起阿里京東的高併發系統！都在這套3天擼完的demo裏了

InnoDB一棵B+樹能存多少行數據？爲什麼要用B+樹？而不是其他樹？

又一個巨頭決定放棄應用架構，全面推動業務架構落地！

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結