我應該在什麼時候使用 Apache Druid

原創

2021-07-24 09:31

許多公司都已經將 Druid 應用於多種不同的應用場景。請訪問使用 Apache Druid 的公司頁面來了解都有哪些公司使用了 Druid。

druid_architecture_diagram

如果您的使用場景符合下面的一些特性，那麼Druid 將會是一個非常不錯的選擇：

數據的插入頻率非常高，但是更新頻率非常低。
大部分的查詢爲聚合查詢（aggregation）和報表查詢（reporting queries），例如我們常使用的 “group by” 查詢。同時還有一些檢索和掃描查詢。
查詢的延遲被限制在 100ms 到幾秒鐘之間。
你的數據具有時間組件（屬性）。針對時間相關的屬性，Druid 進行特殊的設計和優化。
你可能具有多個數據表，但是查詢通常只針對一個大型的分佈數據表，但是，查詢又可能需要查詢多個較小的 lookup 表。
如果你的數據中具有高基數（high cardinality）數據字段，例如 URLs、用戶 IDs，但是你需要對這些字段進行快速計數和排序。
你需要從 Kafka，HDFS，文本文件，或者對象存儲（例如，AWS S3）中載入數據。

如果你的使用場景是下面的一些情況的話，Druid 不是一個較好的選擇：

針對一個已經存在的記錄，使用主鍵（primary key）進行低延遲的更新操作。Druid 支持流式插入（streaming inserts）數據，但是並不很好的支持流式更新（streaming updates）數據。 Druid 的更新操作是通過後臺批處理完成的。
你的系統類似的是一個離線的報表系統，查詢的延遲不是系統設計的重要考慮。
使用場景中需要對錶（Fact Table）進行連接查詢，並且針對這個查詢你可以介紹比較高的延遲來等待查詢的完成。

https://www.ossez.com/t/apache-druid/13604

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

用海豚調度器定時調度從Kafka到HDFS的kettle任務腳本

在實際項目中，從Kafka到HDFS的數據是每天自動生成一個文件，按日期區分。而且Kafka在不斷生產數據，因此看看kettle是不是需要時刻運行？能不能按照每日自動生成數據文件？爲了測試實際項目中的海豚定時調度從Kafka到HDFS的K

2024-04-15 21:18:44

得物 ZooKeeper SLA 也可以 99.99%丨最佳實踐

作者：Bruce 背景今天分享的案例來自於得物技術團隊應用 MSE-ZooKeeper 過程中的最佳實踐。原文得物 ZooKeeper SLA 也可以 99.99% ｜得物技術。 ZooKeeper（ZK）是一個誕生於 2007 年的分

2024-04-22 21:12:04

tp5命令行報 [BadFunctionCallException] not support: redis

tp5命令行報 [BadFunctionCallException] not support: redis 芝麻開門2015 於 2018-09-30 18:29:49 發佈閱讀量1.3w 收藏 1 點贊數分類專欄： php 版權 p

2024-04-17 00:27:13

【安裝部署】Apache SeaTunnel 和 Web快速安裝詳解

版本說明由於作者目前接觸當前最新版本爲2.3.4 但是官方提供的web版本未1.0.0，不兼容2.3.4，因此這裏仍然使用2.3.3版本。可以自定義兼容處理，官方提供了文檔：https://mp.weixin.qq.com/s/Al1V

2024-04-16 12:22:36

dubbo3.0 服務導入導出原理

不管是服務導出還是服務引入，都發生在應用啓動過程中，比如：在啓動類上加上 @EnableDubbo 時，該註解上有一個 @DubboComponentScan 註解，@DubboComponentScan 註解 Import 了一個 D

2024-04-09 23:17:11

工程中實踐的微服務設計模式

最近在讀《微服務架構設計模式》，開始的時候我非常的好奇，因爲在我印象中，設計模式是常說的那23種設計模式，而微服務的設計模式又是什麼呢？這個問題也留給大家，在文末我會附上我對這個問題的理解。本次文章的內容主要是工作中對微服務設計模式的應

2024-04-19 23:17:23

GaussDB(DWS)基於Flink的實時數倉構建

本文分享自華爲雲社區《GaussDB(DWS)基於Flink的實時數倉構建》，作者：胡辣湯。大數據時代，廠商對實時數據分析的訴求越來越強烈，數據分析時效從T+1時效趨向於T+0時效，爲了給客戶提供極速分析查詢能力，華爲雲數倉GaussDB

2024-04-18 10:32:57

更優性能與性價比，從自建 ELK 遷移到 SLS 開始

作者：荊磊背景 ELK (Elasticsearch、Logstash、Kibana) 是當下開源領域主流的日誌解決方案，在可觀測場景下有比較廣泛的應用。隨着數字化進程加速，機器數據日誌增加，自建 ELK 在面臨大規模數據、查詢性能等方

2024-04-15 21:12:22

kafka 異常記錄

Group coordinator 10.0.17.89:9094 (id: 2147483646 rack: null) is unavailable or invalid, will attempt rediscovery 原因：當前消

2024-04-07 13:07:04

TiDB 實戰分享丨第三方支付企業的核心數據庫升級之路

本文介紹了一家第三方支付企業在面對市場競爭和監管壓力的態勢下，通過升級核心數據庫來提升業務能力的實踐。該企業選擇 TiDB 分佈式數據庫，成功將其應用於核心業務、計費、清結算和交易查詢等關鍵系統。TiDB 的水平擴展能力、高可用性和簡化數據

2024-04-05 22:23:16

案例|民生銀行Zabbix潛望者管理平臺建設

（本文整理自民生銀行王斐在2023Zabbix中國峯會上的演講，點擊圖片查看視頻，更多內容可在B站“Zabbix中國”查看）大家好，我是來自民生銀行的王斐，給大家分享民生銀行在Zabbix相關管理上的應用成果，還有Zabb

2024-04-02 22:13:17

飛天發佈時刻丨阿里雲 ApsaraMQ 全面升級，攜手 Confluent 發佈全新產品

隨着雲計算和大數據的快速發展，雲原生消息隊列作爲分佈式系統架構中的關鍵組件，正以前所未有的速度向前發展。3 月 29 日 10:00，阿里雲飛天發佈時刻，阿里雲消息隊列服務將宣佈向 ApsaraMQ 進行全面升級，實現全系產品 Server

2024-04-01 21:12:26

阿里雲 ApsaraMQ 率先完成消息隊列全系 Serverless 化，攜手 Confluent 發佈新產品

雲原生時代，消息隊列成爲現代化應用的關鍵組件，也是雲原生架構底層通信的基礎設施。阿里雲消息隊列發展至今已有十多年曆程。 3 月 29 日，在阿里雲最新一期的“飛天發佈時刻”上，阿里云云原生應用平臺負責人丁宇宣佈，雲消息隊列產品升級全新品牌

2024-04-01 21:12:25

Hive引擎底層初探

1、什麼是Hive Hive是一個基於Hadoop的數據倉庫工具,用於處理和分析大規模結構化數據。Hive提供了類似SQL的查詢語言(HiveQL)，使得熟悉SQL的用戶能夠查詢數據。Hive將SQL查詢轉換爲MapReduce任務，以在

2024-04-17 11:18:21

解密數倉的SQL ON ANYWHERE技術

本文分享自華爲雲社區《GaussDB DWS的SQL ON ANYWHERE技術解密》，作者：tooooooooooomy。 1. 前言適用版本：【8.1.1（及以上）】查詢分析是大數據要解決的核心問題之一，雖然大數據相關的處理引

2024-04-03 10:32:41

24小時熱門文章

最新文章

最新評論文章