事實表，維度，度量，指標之間的關係

維度通常是一個數據記錄的屬性，度量是某一個維度根據特定聚合函數生成的值；group by 的屬性通常就是維度，計算的值則是度量。

維度一般指某個特徵，比如要分析一個網站的用戶，可以考慮下面幾個維度（特徵）：年齡，性別，地域等；而指標通常指全局性的統計量或者統計結果，比如PV，UV，比如轉換率等。

維度就是從不同的方向、不同的影響角度來思考，且維度不可加，或者加起來無意義，相反指標是可數字化的，相加有意義的。例：一個網頁的訪問量，這就是指標；對比每天的頁面訪問量這個就是從時間維度來考慮。

事實表：每個數據倉庫都包含一個或者多個事實數據表。事實數據表可能包含業務銷售數據，如銷售商品所產生的數據，與軟件中實際表概念一樣。事實表是存儲有事實記錄的表，如系統日誌、銷售記錄等，事實表的記錄會不斷增長。

維度表：也稱查找表，是與事實表相對應的一種表；保存了維度屬性值，跟事實表做關聯。是對事實表上重複出現的屬性抽取、規範出來用一張表進行管理。如地區、月度、年度等。

維度：說明數據，維度是指可指定不同值的對象的描述性屬性或特徵。例如，地理位置的維度可以包括“緯度”、“經度”或“城市名稱”。“城市名稱”維度的值可以爲“舊金山”、“柏林”或“新加坡”。

指標：衡量數據，指標是指可以按總數或比值衡量的具體維度元素。例如，維度“城市”可以關聯指標“人口”，其值爲具體城市的居民總數。

維度和指標的關係：雖然維度和指標可以獨立使用，但常見的還是相互結合使用。維度和指標的值以及這些值之間的關係，使您的數據具有了意義。爲了挖掘儘可能多的深層次信息，維度通常與一個或多個指標關聯在一起。

例如，維度“城市”可以與指標“人口”和“面積”相關聯。有了這些數據，系統還可以創建“人口密度”等比值指標，帶來有關這些城市的更詳細的深入信息。

度量：事實表和維度交叉匯聚的點，度量和維度構成OLAP的主要概念，這裏面對於在事實表或者一個多維立方體裏面存放的數值型的、連續的字段，就是度量。這符合上面的意思，有標準，一個度量字段肯定是統一單位，例如元、戶數。如果一個度量字段，其中的度量值可能是歐元又有可能是美元，那這個度量可沒法彙總。在統一計量單位下，對不同維度的描述。

指標與度量的關係：這就得說到指標，我願意表述爲"它是表示某種相對程度的值"。區別於上面的度量概念，那是一種絕對值，尺子量出來的結果，彙總出來的數量等。而指標至少需要兩個度量之間的計算才能得到，例如收入增長率，用本月收入比上上月收入。當然可能指標的計算還需要兩個以上的度量。

指標vs維度

指標，用於衡量事物發展程度的單位或方法，它還有個IT上常用的名字，也就是度量。例如：人口數、GDP、收入、用戶數、利潤率、留存率、覆蓋率等。很多公司都有自己的KPI指標體系，就是通過幾個關鍵指標來衡量公司業務運營情況的好壞。

指標需要經過加和、平均等彙總計算方式得到，並且是需要在一定的前提條件進行彙總計算，如時間、地點、範圍，也就是我們常說的統計口徑與範圍。

指標可以分爲絕對數指標和相對數指標，絕對數指標反映的是規模大小的指標，如人口數、GDP、收入、用戶數，而相對數指標主要用來反映質量好壞的指標，如利潤率、留存率、覆蓋率等。我們分析一個事物發展程度就可以從數量跟質量兩個角度入手分析，以全面衡量事物發展程度。

指標用於衡量事物發展程度，那這個程度是好還是壞，這就需要通過不同維度來對比，才能知道是好還是壞。

維度：是事物或現象的某種特徵，如性別、地區、時間等都是維度。其中時間是一種常用、特殊的維度，通過時間前後的對比，就可以知道事物的發展是好了還是壞了，如用戶數環比上月增長10%、同比去年同期增長20%，這就是時間上的對比，也稱爲縱比;

另一個比較就是橫比，如不同國家人口數、GDP的比較，不同省份收入、用戶數的比較、不同公司、不同部門之間的比較，這些都是同級單位之間的比較，簡稱橫比;

維度可以分爲定性維度跟定量維度，也就是根據數據類型來劃分，數據類型爲字符型(文本型)數據，就是定性維度，如地區、性別都是定性維度;數據類型爲數值型數據的，就爲定量維度，如收入、年齡、消費等，一般我們對定量維度需要做數值分組處理，也就是數值型數據離散化，這樣做的目的是爲了使規律更加明顯，因爲分組越細，規律就越不明顯，最後細到成最原始的流水數據，那就無規律可循。

只有通過事物發展的數量、質量兩大方面，從橫比、縱比角度進行全方位的比較，我們才能夠全面的瞭解事物發展的好壞。

維度表設計最佳實踐：

1、數據一致性，主鍵唯一性，kylin會檢查，如果不唯一，會報錯。

2、維度表越小越好，因爲kylin會放在內存中，默認的閾值是300mb

3、改變頻率低,kylin會在每次構建中試圖重用維度表的快照，如果維度表經常改變，重用會失效。

4、維度表最好不要是視圖，因爲需要對視圖物化，從而增加時間開銷。

通過大量的數據分析軟件工具應用可以發現，主要包括以下內容：

整體情況的分析和彙總：全局數據的概況、變化趨勢、佔比等
多個維度的分析：如果是日誌數據，已經存在多個數據項，以某一個數據項作爲主關鍵詞彙總分析，同比、環比變化，佔總數的變化。如果沒有日誌數據，則需要想清楚解決這個問題原因是什麼?需要採集哪些數據項?
重要場景問題的分析:根據分析的重要問題、用戶關心的問題進行分析
軟硬件性能管理、告警管理、報表管理、基礎參數配置和用戶管理等等

在多維度分析、告警、報表，數據圖表可視化設計呈現方面也存在許多共性，總結如下:

數據的呈現方式是表格還是圖表?若是時間範圍，時間統計粒度是多少?
表格需要呈現哪些數據?數據的單位?保留幾位小數?數據計算的方法?排序依據?
圖表採用哪一種?呈現的範圍是多少?
常見的數據項操作：新增、刪除、修改、查詢

新增哪些是必填數據項?校驗重複性和有效性?
刪除是否需要提醒?是否具有權限刪除?
修改可修改的數據項有哪些?修改後是否要進行校驗有效性和重複項?是否有修改的權限?
查詢是精準查詢還是模糊查詢?是單一查詢還是支持批量查詢?批量查詢輸入方式的講究?查詢的內容輸入什麼是否支持大小寫空格等?數據區間的查詢是自定義還是給出範圍劃分?

僅用5步，即可從0-1構建大數據知識體系https://www.jianshu.com/p/df813555e583

大數據產品，從系統性和體系思路上來做，主要分爲五步：

（1）數據埋點、採集；

（2）基於採集回來的多維度數據，採用ETL對其各類數據進行結構化處理及加載；

（3）對ETL處理後的標準化結構數據，建立數據存儲管理子系統，歸集到底層數據倉庫；基於數據倉庫，對其內部數據分解成基礎的同類數據集市；

（4）基於歸集分解的不同數據集市，對其數據集進行數據建模和各類算法設計。可利用各類R函數包，或自行設計算法。這個過程產品和運營參與最多。

（5）根據建立的各類數據模型及算法，結合前端不同渠道不同業務特徵，根據渠道觸點自動匹配後端模型自動展現用戶個性化產品和服務。

itbgj

發佈了41 篇原創文章 · 獲贊 5 · 訪問量 2萬+

私信關注

數倉DataStar

事實表，維度，度量，指標之間的關係

指標vs維度

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

Hadoop權威指南（第三版）筆記

大數據技術棧速覽之：Parquet

中臺那些事兒

大數據技術棧速覽之：YARN

閱讀筆記（2019.10.11）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結