行存儲(關係型數據庫)與列存儲(hbase,es聚合的doc_value)

1.爲什麼要按列存儲

列式存儲(Columnar or column-based)是相對於傳統關係型數據庫的行式存儲(Row-basedstorage)來說的。簡單來說兩者的區別就是如何組織表

Ø  Row-based storage stores atable in a sequence of rows.

Ø  Column-based storage storesa table in a sequence of columns.

 行式存儲下一張表的數據都是放在一起的,但列式存儲下都被分開保存了

 

                             

行式存儲

列式存儲

優點

Ø  數據被保存在一起

Ø  INSERT/UPDATE容易

Ø  查詢時只有涉及到的列會被讀取

Ø  投影(projection)很高效

Ø  任何列都能作爲索引

缺點

Ø  選擇(Selection)時即使只涉及某幾列,所有數據也都會被讀取

Ø  選擇完成時,被選擇的列要重新組裝

Ø  INSERT/UPDATE比較麻煩

 

注:關係型數據庫理論回顧 - 選擇(Selection)和投影(Projection)

 

 

 數據壓縮:通過字典表壓縮數據

下面纔是那張表本來的樣子。經過字典表進行數據壓縮後,表中的字符串才都變成數字了。正因爲每個字符串字典表裏只出現一次了,所以達到了壓縮的目的(有點像規範化和非規範化Normalize和Denomalize)

 

 

 

 查詢執行性能

通過一條查詢的執行過程說明列式存儲(以及數據壓縮)的優點:

關鍵步驟如下:

1.     去字典表裏找到字符串對應數字(只進行一次字符串比較)。

2.     用數字去列表裏匹配,匹配上的位置設爲1

3.     把不同列的匹配結果進行位運算得到符合所有條件的記錄下標。

4.     使用這個下標組裝出最終的結果集

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章