數倉DataStar

事實表,維度,度量,指標之間的關係

維度通常是一個數據記錄的屬性,度量是某一個維度根據特定聚合函數生成的值;group by 的屬性通常就是維度,計算的值則是度量。 

維度一般指某個特徵,比如要分析一個網站的用戶,可以考慮下面幾個維度(特徵):年齡,性別,地域等;而指標通常指全局性的統計量或者統計結果,比如PV,UV,比如轉換率等。

維度就是從不同的方向、不同的影響角度來思考,且維度不可加,或者加起來無意義,相反指標是可數字化的,相加有意義的。例:一個網頁的訪問量,這就是指標;對比每天的頁面訪問量 這個就是從時間維度來考慮。

事實表:每個數據倉庫都包含一個或者多個事實數據表。事實數據表可能包含業務銷售數據,如銷售商品所產生的數據,與軟件中實際表概念一樣。事實表是存儲有事實記錄的表,如系統日誌、銷售記錄等,事實表的記錄會不斷增長。

維度表:也稱查找表,是與事實表相對應的一種表;保存了維度屬性值,跟事實表做關聯。是對事實表上重複出現的屬性抽取、規範出來用一張表進行管理。如地區、月度、年度等。

維度:說明數據,維度是指可指定不同值的對象的描述性屬性或特徵。例如,地理位置的維度可以包括“緯度”、“經度”或“城市名稱”。“城市名稱”維度的值可以爲“舊金山”、“柏林”或“新加坡”。

指標:衡量數據,指標是指可以按總數或比值衡量的具體維度元素。例如,維度“城市”可以關聯指標“人口”,其值爲具體城市的居民總數。

維度和指標的關係:雖然維度和指標可以獨立使用,但常見的還是相互結合使用。維度和指標的值以及這些值之間的關係,使您的數據具有了意義。爲了挖掘儘可能多的深層次信息,維度通常與一個或多個指標關聯在一起。

例如,維度“城市”可以與指標“人口”和“面積”相關聯。有了這些數據,系統還可以創建“人口密度”等比值指標,帶來有關這些城市的更詳細的深入信息。

度量:事實表和維度交叉匯聚的點,度量和維度構成OLAP的主要概念,這裏面對於在事實表或者一個多維立方體裏面存放的數值型的、連續的字段,就是度量。這符合上面的意思,有標準,一個度量字段肯定是統一單位,例如元、戶數。如果一個度量字段,其中的度量值可能是歐元又有可能是美元,那這個度量可沒法彙總。在統一計量單位下,對不同維度的描述。

指標與度量的關係:這就得說到指標,我願意表述爲"它是表示某種相對程度的值"。區別於上面的度量概念,那是一種絕對值,尺子量出來的結果,彙總出來的數量等。而指標至少需要兩個度量之間的計算才能得到,例如收入增長率,用本月收入比上上月收入。當然可能指標的計算還需要兩個以上的度量。

 

指標vs維度 

指標,用於衡量事物發展程度的單位或方法,它還有個IT上常用的名字,也就是度量。例如:人口數、GDP、收入、用戶數、利潤率、留存率、覆蓋率等。很多公司都有自己的KPI指標體系,就是通過幾個關鍵指標來衡量公司業務運營情況的好壞。

指標需要經過加和、平均等彙總計算方式得到,並且是需要在一定的前提條件進行彙總計算,如時間、地點、範圍,也就是我們常說的統計口徑與範圍。

指標可以分爲絕對數指標和相對數指標,絕對數指標反映的是規模大小的指標,如人口數、GDP、收入、用戶數,而相對數指標主要用來反映質量好壞的指標,如利潤率、留存率、覆蓋率等。我們分析一個事物發展程度就可以從數量跟質量兩個角度入手分析,以全面衡量事物發展程度。

指標用於衡量事物發展程度,那這個程度是好還是壞,這就需要通過不同維度來對比,才能知道是好還是壞。

 

維度:是事物或現象的某種特徵,如性別、地區、時間等都是維度。其中時間是一種常用、特殊的維度,通過時間前後的對比,就可以知道事物的發展是好了還是壞了,如用戶數環比上月增長10%、同比去年同期增長20%,這就是時間上的對比,也稱爲縱比;

另一個比較就是橫比,如不同國家人口數、GDP的比較,不同省份收入、用戶數的比較、不同公司、不同部門之間的比較,這些都是同級單位之間的比較,簡稱橫比;

維度可以分爲定性維度跟定量維度,也就是根據數據類型來劃分,數據類型爲字符型(文本型)數據,就是定性維度,如地區、性別都是定性維度;數據類型 爲數值型數據的,就爲定量維度,如收入、年齡、消費等,一般我們對定量維度需要做數值分組處理,也就是數值型數據離散化,這樣做的目的是爲了使規律更加明 顯,因爲分組越細,規律就越不明顯,最後細到成最原始的流水數據,那就無規律可循。

  只有通過事物發展的數量、質量兩大方面,從橫比、縱比角度進行全方位的比較,我們才能夠全面的瞭解事物發展的好壞。

 

維度表設計最佳實踐:

1、數據一致性,主鍵唯一性,kylin會檢查,如果不唯一,會報錯。

2、維度表越小越好,因爲kylin會放在內存中,默認的閾值是300mb

3、改變頻率低,kylin會在每次構建中試圖重用維度表的快照,如果維度表經常改變,重用會失效。

4、維度表最好不要是視圖,因爲需要對視圖物化,從而增加時間開銷。

 

通過大量的數據分析軟件工具應用可以發現,主要包括以下內容:

  • 整體情況的分析和彙總:全局數據的概況、變化趨勢、佔比等
  • 多個維度的分析:如果是日誌數據,已經存在多個數據項,以某一個數據項作爲主關鍵詞彙總分析,同比、環比變化,佔總數的變化。如果沒有日誌數據,則需要想清楚解決這個問題原因是什麼?需要採集哪些數據項?
  • 重要場景問題的分析:根據分析的重要問題、用戶關心的問題進行分析
  • 軟硬件性能管理、告警管理、報表管理、基礎參數配置和用戶管理等等

在多維度分析、告警、報表,數據圖表可視化設計呈現方面也存在許多共性,總結如下:

  1. 數據的呈現方式是表格還是圖表?若是時間範圍,時間統計粒度是多少?
  2. 表格需要呈現哪些數據?數據的單位?保留幾位小數?數據計算的方法?排序依據?
  3. 圖表採用哪一種?呈現的範圍是多少?
  4. 常見的數據項操作:新增、刪除、修改、查詢
  • 新增哪些是必填數據項?校驗重複性和有效性?
  • 刪除是否需要提醒?是否具有權限刪除?
  • 修改可修改的數據項有哪些?修改後是否要進行校驗有效性和重複項?是否有修改的權限?
  • 查詢是精準查詢還是模糊查詢?是單一查詢還是支持批量查詢?批量查詢輸入方式的講究?查詢的內容輸入什麼是否支持大小寫 空格等?數據區間的查詢是自定義還是給出範圍劃分?

僅用5步,即可從0-1構建大數據知識體系https://www.jianshu.com/p/df813555e583

大數據產品,從系統性和體系思路上來做,主要分爲五步:

(1)數據埋點、採集;

(2)基於採集回來的多維度數據,採用ETL對其各類數據進行結構化處理及加載;

(3)對ETL處理後的標準化結構數據,建立數據存儲管理子系統,歸集到底層數據倉庫;基於數據倉庫,對其內部數據分解成基礎的同類數據集市;

(4)基於歸集分解的不同數據集市,對其數據集進行數據建模和各類算法設計。可利用各類R函數包,或自行設計算法。這個過程產品和運營參與最多。

(5)根據建立的各類數據模型及算法,結合前端不同渠道不同業務特徵,根據渠道觸點自動匹配後端模型自動展現用戶個性化產品和服務。


 

發佈了41 篇原創文章 · 獲贊 5 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章