大數據項目實施案例

第一、項目目標

將超過30個核心繫統數據,實施同步複製,統一集中到大數據平臺。

1)將數據實施同步,數據量很大。---數據比較複雜

2)數據複製的實時性、準確性

3)複製數據需要增加標籤(操作時間、操作類型、操作人等),便於後端識別數據。

4)如何抽取數據,減輕對生產庫的影響。如視圖、臨時表、dg庫等手段。

5)如何更好的適配後端應用,保證數據規格靈活,預留字段充足。

可以考慮建立編碼管理,元數據倉庫。

6)具備操作控制流管理、數據抽取、數據清洗、數據對比的功能,方便追蹤溯源。

第二、項目難點與應對

1)業務系統衆多,數據源比較複雜,有sqlserver,mysql,essbase,oracle,sql server。同時數據規則不一。

建議建立數據處理中心、元數據倉庫。轉換數據格式,並做好擴展性。

2) 數據量龐大,初始化數據的時間開始點很重要。一般財務覈算數據保留兩年的時間。但是因爲業務特殊性,有些數據

需要追溯到10-30 年,甚至更長時間。

3)對數據存儲空間、存儲機房位置,是否需要專用光纜,是否和其他系統搶佔資源等。

4)複製核心業務系統數據不超過10S-20S。實效要求高。準確性也需要,否則無法保證數據準確性。

5)對數據清洗、分攤、補錄。提供一個統一手工補錄的接口。

第三、解決方案:

1)數據平臺複製數據需要支持異構數據庫、大數據量、實時性、模塊化。

可以考慮初始化數據全量同步到hdfs,增量數據同步到kafka。

2)複製數據放在 備份庫上。一定要減輕生產庫的壓力。

3)爲了節約網絡資源,需要和備份數據庫放在同一個機房。、

4)需要建立數據控制流,方便數據校驗。 暫定校驗數據條數、數據數量合計。

目的是支持後續業務進行數據操作回查,實現數據校驗。特別是財務數據,可能需要下鑽

抽取憑證級的數據。

5)需要配置多個同步通道。可以快速將數據同步到數據庫,並支持增量同步的方式。

需要選取複製效率最高的產品。如可以支持多線程、多併發、特定數據格式、數據壓縮技術,

以及快速數據抽取和裝載技術。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章