項目描述之ODS(二)


運作數據存儲ODS(Operational Data Store),ODS系統是面向主題的、集成的、可變的、數據是最新的或是接近最新的、細節的5個基本特徵;是基於某個主題相關一組數據的集合,而不侷限在某個應用系統,從業務關聯的角度看數據,而不是基於傳統的應用角度看數據。

 

 

數據採集(ETL)設計原則
1.基於現有技術,優先採用DataStage作爲數據採集工具;
2.使用DataStage進行進行數據採集時,採用落地DataSet文件,供DataStage向ODS寫入數據使用,且成功完成ODS數據寫入後,將該DataSet文件刪除;
3.原則上源系統數據量小於100萬Table,採用全量獲取方式,並最終Update/Insert到ODS目標表中;原則上源系統數據量大於100萬Table,採用增量獲取方式,並最終Update/Insert到ODS目標表中;
4.基於時間戳方式進行抓取是,若源系統數據量大於100萬Table,根據需要每月月中或每週週日將近期(具體週期依賴該表對應的業務,例如可以三個月前之後的數據,也可以一個月前之後的數據)數據Update/Insert到ODS目標表中,以減少數據漏抓的機率;
5.爲減少因業務系統數據刪除對ODS的影響,每月月中或每週週日對數據進行比對,將在業務系統中刪除的數據在ODS中進行刪除處理;
6.原則上一個主題一個DataStage Project(工程),Project下來自不同系統採用不同Category進行劃分。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章