第一、項目目標
將超過30個核心繫統數據,實施同步複製,統一集中到大數據平臺。
1)將數據實施同步,數據量很大。---數據比較複雜
2)數據複製的實時性、準確性
3)複製數據需要增加標籤(操作時間、操作類型、操作人等),便於後端識別數據。
4)如何抽取數據,減輕對生產庫的影響。如視圖、臨時表、dg庫等手段。
5)如何更好的適配後端應用,保證數據規格靈活,預留字段充足。
可以考慮建立編碼管理,元數據倉庫。
6)具備操作控制流管理、數據抽取、數據清洗、數據對比的功能,方便追蹤溯源。
第二、項目難點與應對
1)業務系統衆多,數據源比較複雜,有sqlserver,mysql,essbase,oracle,sql server。同時數據規則不一。
建議建立數據處理中心、元數據倉庫。轉換數據格式,並做好擴展性。
2) 數據量龐大,初始化數據的時間開始點很重要。一般財務覈算數據保留兩年的時間。但是因爲業務特殊性,有些數據
需要追溯到10-30 年,甚至更長時間。
3)對數據存儲空間、存儲機房位置,是否需要專用光纜,是否和其他系統搶佔資源等。
4)複製核心業務系統數據不超過10S-20S。實效要求高。準確性也需要,否則無法保證數據準確性。
5)對數據清洗、分攤、補錄。提供一個統一手工補錄的接口。
第三、解決方案:
1)數據平臺複製數據需要支持異構數據庫、大數據量、實時性、模塊化。
可以考慮初始化數據全量同步到hdfs,增量數據同步到kafka。
2)複製數據放在 備份庫上。一定要減輕生產庫的壓力。
3)爲了節約網絡資源,需要和備份數據庫放在同一個機房。、
4)需要建立數據控制流,方便數據校驗。 暫定校驗數據條數、數據數量合計。
目的是支持後續業務進行數據操作回查,實現數據校驗。特別是財務數據,可能需要下鑽
抽取憑證級的數據。
5)需要配置多個同步通道。可以快速將數據同步到數據庫,並支持增量同步的方式。
需要選取複製效率最高的產品。如可以支持多線程、多併發、特定數據格式、數據壓縮技術,
以及快速數據抽取和裝載技術。