datax大數據了同步工具

安裝插件datax wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

需要基礎環境

jdk8以上

python2或者3

 

1.數據量少推薦使用streamset 界面化 配置簡單

配置數據源和寫入淵和源數據表和寫入表即可,之間的字段關係streamsets自動匹配,區分大小寫。

 

2.最近做OTC項目 底層的一些資料需要同步 涉及量比較大 目前最多一次是1.3億,同步只能在晚上同步 用streamset同步耗時在15小時左右。

服務器配置64g內存。單線程單task所以比較慢。

每個工具都有適用的場景。

 

 

 

 

 這個是我在我們公司服務器做的測試結果,執行任務的時候沒有加內存配置,應該服務器硬件算是低了了。雖然是8G可是可用內存也就沒多少。

可以看到效果還是可觀的。3400萬在44分鐘。如果部署到64內存,啓動任務再配置8G內存,速度應該可以在半小時內。

 

{
"job": {
        "content": [
            {
                "reader": {
                    "name": "sqlserverreader", 
                    "parameter": {
                        "connection": [
                            {
                                "jdbcUrl": ["jdbc:sqlserver://ip;DatabaseName=JNJ_SelfCare_Test"], 
                                "querySql": ["select *  from T_JNJ_SalesData_RPD_Month"]
                            }
                        ], 
                        "password": "", 
                        "username": ""
                    }
                }, 
                "writer": {
                    "name": "sqlserverwriter", 
                    "parameter": {
                        "column": ["*"], 
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:sqlserver://ip;DatabaseName=JNJ_SelfCare_Test", 
                                "table": ["T_JNJ_SalesData_RPD_Month_0418"]
                            }
                        ], 
                        "password": "", 
                        "username": ""
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": "30"
            }
        }
    }
}

 

上面是配置SqlServer到SqlServer同步的配置文件

執行任務

python datax.py ../job/sqlserverTosqlserver.json 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章