DW Performance Notes

原創

gjwang1983

2020-02-20 15:23

第一章 DW性能的要素

1.1 性能度量

查詢的響應時間
查詢提交到返回第一行數據的時間
查詢提交到最後一行數據的時間

我的理解：響應時間是一個直觀的用戶體驗。本質上是查詢所消耗的CPU 時間，IO開銷，PE效率（並行系統）

1.2 生產效率

響應時間快對用戶的生產效率有很大的幫助。更及時知道業務的變化。

1.3 數據容量

數據量越大，查詢性能越差。
有如下幾種方法提高大數據量的查詢：

Denormalization （通過預計算值、物理存放相關數據在一個數據塊上來減少連接和計算操作）對Denormalization要審慎，因爲Denormalization只對特定一部分用戶提高了訪問性能，對其他用戶是降低了訪問性能和提高了數據異常的可能性。
Indexing（index提高了訪問性能，但是增加了額外的空間和管理開銷，其次index無法解決未知的問題）
Parallelism（硬件架構以提升性能）
Archiving （休眠數據）

第二章 DW用戶分類

瞭解你的用戶，以及用戶怎樣使用數據，是提高DW性能很重要（可能是最簡單直接的）的方法。

2.1 Farmer 和 Explorer

Farmer 是用predefined查詢，使用OLAP分析（star schema），分析企業的運營狀況（KPI, ScoreCard等彙總數據
- 多維度分析
- 有限的數據概要分析（data profiling）
Explorer是Ad hoc查詢，從數據中挖掘知識，發掘讓業務增長或發展新業務的方向，通過分析會制定新的feature、營銷策略和CRM方法，一般3NF滿足非確定性的分析。

數據概要分析
數據抽取（選取）
模型建立（數據訓練，建立抽象模型）
數據分類
有限的多維度分析

2.2 其他分類方法

職員和管理層
- 職員，往往是operational 數據分析（ODS IV），數據量很少
- 管理層，往往戰略制定，數據量很大
非技術用戶和技術用戶
- 非技術用戶，不懂技術，希望分析結果很容易呈現在其眼前。類似不會寫SQL的那些人。
- 技術用戶，很懂技術知道如何使用DW，懂Join。
預定義和Ad hoc查詢
- 預定義查詢不應該具有性能問題
- Ad hoc可能有性能問題
彙總和細節
- 彙總數據具有性能優勢，但是丟失了信息以及需要元數據管理描述彙總算法
- 細節數據具有高度靈活性和可擴展性，但是性能很差

gjwang1983

發佈了75 篇原創文章 · 獲贊 33 · 訪問量 27萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

DW Performance Notes

工作中用到的腳本合集

24-5-18 X

scp by SAS

DW Design

data reconciliation/verification TBC

PET and Prod

[Spark | Yarn | Hadoop] Spark Submit over Yarn

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結