數據倉庫設計與實現入門（一、ODS/DW/BN簡介）

原創

2019-04-03 03:12

一、從數據流的邏輯上來講，數據主要分爲ODS層（原始日誌數據），DW層（數據倉庫），BN（統計結果數據）

Spark/SparkStreaming任務加載原始日誌（離線處理flume落地到hadoop集羣的hdfs或實時消費kafka數據）提取業務最原始數據，根據業務邏輯生成ODS層數據（分類/分流後的原始日誌）；再根據業務場景進一步將業務ODS層數據劃分到DW層（處理後的數據模型）；最後跟據具體業務需求，從DW層數據模型中產出最終業務數據，即BN層；

ODS、DW層數據一般直接存儲於hdfs，建議以orc（優先）/parquet（嵌套數據結構）文件格式存儲（列式存儲，DataFrame讀寫，壓縮比較高，且讀寫較快，支持hive、impala等），DW層數據可以建立Hive表，供數據分析師直接使用Hive Sql/Spark Sql使用sql語言查詢。

BN層數據一般存儲hdfs（冷數據）+ ES、Hbase、MySQL或Redis（熱數據）。這部分數據可以作爲數據管理系統後臺數據（提供產品運營同事查詢），或作爲接口服務的後臺數據，提供數據接口與業務研發同事使用（出於數據安全性考慮，一般不建議直接提供數據庫與業務研發同事訪問或數據直接寫入業務數據庫）。

下一章：產品數據分類，數據模型設計

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據倉庫設計與實現入門（一、ODS/DW/BN簡介）

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

Java ThreadPoolShutdown

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

5月21日相聚上海張江！與文心大模型一起共建大模型產業應用生態圈

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

“她”來了，陪伴賽道鉅變！爲GPT-4o加上你的一個數字分身

京東秒送售後系統退款業務重構心得| 京東零售技術團隊

Hadoop與Spark並行度設置問題（mr、spark任務提交參數的設置、spark-submit參數調優）

通俗易懂的Hive知識分享

Flink大數據計算框架

SpringData連接ElasticSearch

操作系統課程設計1 Linux下編譯c++文件

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結