Druid爲啥這麼好用？

原創

2020-06-04 06:18

一、Druid設計原則

（1）快速查詢能力：部分數據聚合（Partial Aggregate） + 內存化（In-Memory）+索引（Index）

（2）水平擴展能力：分佈式查詢（Distributed Data） + 並行化查詢（Parallelizable Query）

（3）實時分析能力：不可變的過去（Immutable Past），只追加的未來（Append-Only Future）。

部分聚合：Partial Aggregate

Druid默認會對明細數據按最明細的全維度組合，以及指標，進行預先聚合。聚合方式是預定義的，聚合粒度是按時間聚合，可以是從1分鐘到1天。

內存化

使用Bitmap 和各種壓縮技術。

索引

通過倒排索引，加速 AND / OR

算子可並行化查詢

提供可並行化查詢的聚合操作，如Count，Mean，Variance等。

對於不能並行化的操作，如Median，Druid暫時不支持。

對基數的查詢提供近似算法（HyperLoglog，DataSketches），以保證快速相應。

捨棄耗時的Join操作

使用druid時，其輸入數據需要是串聯好的寬表，因爲druid不支持Join操作，以保障響應性能。同時，Druid是一種時序數據庫，在入庫時會按照一定的時間粒度對數據進行聚合，以加快分析查詢速度。

二、Druid的基本概念

時間列

Druid會將時間很久的一些數據行聚合在一起，所有的查詢都需要指定查詢的時間範圍。

維度列

維度列用來標識事件的維度。

事件列

用於聚合和計算的列，是業務的量化指標。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

用戶活躍度標籤建模

應用場景期望根據客戶近3個月的登錄行爲和發帖更新貼行爲，評估客戶的活躍度，將活躍度分爲多個等級，以根據不同的活躍等級開展不同的營銷活動。基本思路 1、採用聚類算法，特徵值取最近3個月每週（一週取7天）登錄次數，每週發帖次數，每

2020-06-24 00:33:30

Hive SQL 優化

要想做好hive優化，首先要理解MR過程，HiveSQL轉換爲MR的過程，以及Hive表的分區分桶機制。本質上的優化是，減少讀，避免shuffle 和增加併發度。優化的手段：跳過不必要的讀減少Shuffle 讀延遲

2020-06-24 00:33:30

Spark 爲啥比 MapReduce 快？

Spark 爲啥比 MapReduce 快？ DAG優化和內存 (1) 算子靈活性：MR只支持Map和Reduce 兩種操作，而Spark有豐富的算子。 (2) Map 中間結果寫磁盤，Reduce 寫HDFS，多個MR之間通

2020-06-24 00:33:30

Flink DataStream API 介紹

2020-06-04 06:18:19

一文搞懂網絡協議

2020-06-04 06:18:19

Flink Windows 多流 Join 和 SQL Join

2020-06-04 06:18:19

Flink基本概念和編程模型

2020-06-04 06:18:19

Flink 狀態管理

2020-06-04 06:18:19

Flink Window 機制

2020-06-04 06:18:19

Flink Exactly Once

2020-06-04 06:18:19

Flink 時間概念與 WaterMark

2020-06-04 06:18:08

用戶活躍度標籤建模

應用場景期望根據客戶近3個月的登錄行爲和發帖更新貼行爲，評估客戶的活躍度，將活躍度分爲多個等級，以根據不同的活躍等級開展不同的營銷活動。基本思路 1、採用聚類算法，特徵值取最近3個月每週（一週取7天）登錄次數，每週發帖次數，每

2020-06-24 00:33:30

Hive SQL 優化

要想做好hive優化，首先要理解MR過程，HiveSQL轉換爲MR的過程，以及Hive表的分區分桶機制。本質上的優化是，減少讀，避免shuffle 和增加併發度。優化的手段：跳過不必要的讀減少Shuffle 讀延遲

2020-06-24 00:33:30

Spark 爲啥比 MapReduce 快？

Spark 爲啥比 MapReduce 快？ DAG優化和內存 (1) 算子靈活性：MR只支持Map和Reduce 兩種操作，而Spark有豐富的算子。 (2) Map 中間結果寫磁盤，Reduce 寫HDFS，多個MR之間通

2020-06-24 00:33:30

Flink DataStream API 介紹

2020-06-04 06:18:19

24小時熱門文章

最新文章

最新評論文章