Druid基礎知識(編輯中)

Druid
https://yuzhouwan.com/posts/5845/
http://druidio.cn/
實時,快速,切片,大數據(PB級),列式存儲,分佈式
結合了OLAP分析數據庫、時間序列數據庫和全文檢索思想
集成kafka等消息隊列和hdfs等文件系統
數據源可以使Hadoop、spark、storm和kafka等
使用mvcc解決併發問題
Druid 聚合
會將數據進行預聚合,缺點是,不能查詢每條數據的明細(因爲被聚合了),也就是說,聚合粒度是查詢數據的最小粒度。需要提前定義。
數據分片
以segments形式分片,時間作爲第一級分片,segments包含基於列的壓縮和這些列的索引。
數據加載
分爲實時和批處理兩種,批處理用來提高精度。
數據查詢
支持SQL,數據進入druid之前先join
Druid集羣架構:
Historical節點:下載不變的segments到本地,並提供segments的查詢服務
broker節點:鏈接客戶端,分發查詢,收集合並結果。
coordinator節點:管理集羣的historical節點的segments。通知下載新的segments,刪除舊的segments。
real-time處理:加載數據,創建索引(創建segments),講segments交給historical節點。
外部依賴:
zookeeper:保證集羣信息一致。metadata storage:管理元數據 deep Storage segments的永久備份。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章