安裝插件datax wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
需要基礎環境
jdk8以上
python2或者3
1.數據量少推薦使用streamset 界面化 配置簡單
配置數據源和寫入淵和源數據表和寫入表即可,之間的字段關係streamsets自動匹配,區分大小寫。
2.最近做OTC項目 底層的一些資料需要同步 涉及量比較大 目前最多一次是1.3億,同步只能在晚上同步 用streamset同步耗時在15小時左右。
服務器配置64g內存。單線程單task所以比較慢。
每個工具都有適用的場景。
這個是我在我們公司服務器做的測試結果,執行任務的時候沒有加內存配置,應該服務器硬件算是低了了。雖然是8G可是可用內存也就沒多少。
可以看到效果還是可觀的。3400萬在44分鐘。如果部署到64內存,啓動任務再配置8G內存,速度應該可以在半小時內。
{ "job": { "content": [ { "reader": { "name": "sqlserverreader", "parameter": { "connection": [ { "jdbcUrl": ["jdbc:sqlserver://ip;DatabaseName=JNJ_SelfCare_Test"], "querySql": ["select * from T_JNJ_SalesData_RPD_Month"] } ], "password": "", "username": "" } }, "writer": { "name": "sqlserverwriter", "parameter": { "column": ["*"], "connection": [ { "jdbcUrl": "jdbc:sqlserver://ip;DatabaseName=JNJ_SelfCare_Test", "table": ["T_JNJ_SalesData_RPD_Month_0418"] } ], "password": "", "username": "" } } } ], "setting": { "speed": { "channel": "30" } } } }
上面是配置SqlServer到SqlServer同步的配置文件
執行任務
python datax.py ../job/sqlserverTosqlserver.json