項目中有兩個數據庫:本地數據庫和遠程服務器數據庫。數據要在本地經過數據洗滌後才傳上服務器數據庫。之前用的Navicat工具,但是速度慢,且無法設置定時同步。後來改用Datax,它的效率真的非常高。
DataX 是阿里巴巴集團內被廣泛使用的離線數據同步工具/平臺,實現包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各種異構數據源之間高效的數據同步功能。
官方地址:下載地址。
我是下載完整包,比較方便不用maven編譯
使用步驟:
(1)環境準備:
JDK1.8、python2.6.x(裝python3.0會報錯)、maven3.x.x(下載源碼包時,需要用maven編譯)
(2)使用:
將下載好的datax.tar.gz解壓,找到job.json文件,路徑:E:\datax\job\job.json,用編輯器打開:
{
"job": {
"setting": {
"speed": {
"channel":1
},
},
"content": [
{
"reader": {
"name": "mysqlreader",
"parameter": {
"connection": [
{
//配置sql語句查詢要同步的數據querySql,配置querySql後不需要配置column和table,因爲當用戶配置querySql時,MysqlReader直接忽略table、column、where條件的配置,querySql優先級大於table、column、where選項。
"querySql": [
"select * FROM 表名 WHERE date1>='2018-12-24';"
],
"jdbcUrl": ["jdbc:mysql://[讀數據數據庫的ip地址]:3306/數據庫名?useUnicode=true&characterEncoding=utf8&yearIsDateType=false&zeroDateTimeBehavior=convertToNull&tinyInt1isBit=false&rewriteBatchedStatements=true"],
}
],
"password": "登錄數據庫的密碼",
"username": "登錄數據庫的用戶名",
}
},
"writer": {
"name": "mysqlwriter",
"parameter": {
"password": "登錄數據庫的密碼",
"username": "登錄數據庫的用戶名",
"column":["*"],
"connection": [
{
"jdbcUrl": "jdbc:mysql://[寫數據的IP地址]/數據庫名",
"table": ["數據表名"]
}
],
}
}
}
]
}
}
打開cmd控制檯,執行datax的datax.py,命令:python E:\datax\bin\python E:\datax\job\job.json
,運行結果: