從0到1搭建數倉第一步——從業務系統同步數據到數倉ods層解決方案

方案1:全量更新

所有的表全量更新
缺點:
1.數據量過大(雙十一當天就有200萬條訂單數據,總的歷史數據已經有7億數據量)
2.會缺失數據(系統中的數據有歷史數據表,會自動清理半年之前的數據)
對策:將會數據清理的表整理出來(做增量更新),其他的表全量更新——即使這樣數據量也很大。

方案2:增量更新

所有的表有modified字段的增量更新,否則全量更新
觸發器對發生改變的數據做臨時表,到時候只需要更改臨時表的數據即可

最後的解決方案:

第一次使用hive全量更新,後每天對無modified的表使用hive全量更新,對有modified字段的表進行增量更新。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章