presto、sparksql、druid、kylin、clickhouse說明

原創

2021-01-30 10:33

presto和sparksql只是計算引擎，不做數據存儲

相對於sparksql，presto是純內存計算，儘量使用整個集羣中的內存，sparksql依賴於分配的executor數量，在executor內存不足時會落盤；

相對於sparksql，presto啓動執行更迅速，sparksql要依賴yarn調度資源；

相對於sparksql，presto帶有分頁功能，在分頁查詢時更有優勢；

相對於presto，sparksql運行更穩定，presto會經常出現oom；

druid、kylin、clickhouse都是存儲加計算引擎

druid和kylin更適合預聚合場景，其中druid是時序數據庫，對所有維度列枚舉值建立bitmap索引，所以維度枚舉值如果較多的話，數據膨脹會比較厲害；kylin是通過MapReduce任務枚舉維度組合，每一種維度組合對應一張hbase表，維度組合值爲主鍵，通過hbase rowkey實現快速訪問，因爲實現要指定維度組合情況，所以kylin適合業務場景比較固定的情況，這也是hbase的特點，通過單一的key查詢數據。

clickhouse可以對數據分區，建立主鍵，對命中主鍵的明細數據聚合查詢較快，這種對於一些維度枚舉值較多的數據比較適合，沒有數據膨脹

結論

druid和kylin主要針對預聚合場景，因此查詢較快，qps較高，但是因爲數據做了聚合，無法查看明細數據，不支持join；clickhouse、presto、sparksql主要是掃描原始數據，實時聚合，因此查詢較慢，qps較低，但是clickhouse有主鍵索引，數據都存在本地，因此查詢速度明顯快於presto和sparksql，但是presto、sparksql join性能更好

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

分享一份物聯網SAAS平臺架構設計

一、架構圖**** 二、Nginx**** 用於做服務的反向代理。三、網關**** PaaS平臺所有服務統一入口，包含token鑑權功能。四、開放平臺**** 對第三方平臺開放的服務入口。五、MQTT**** MQTT用於設備消息通

2024-04-30 23:42:19

clickhouse vs starRocks|||

比對結論如果只能單機部署的話，clickhouse基本無敵。如果集羣化，starRocks可以替換clickhouse，但支持的函數會相對少一些（clickhouse有不少自定義函數）信息比對功能 clickhouse

2024-04-26 11:25:43

用戶行爲分析模型實踐（四）—— 留存分析模型

作者：vivo 互聯網大數據團隊- Wu Yonggang、Li Xiong 本文是vivo互聯網大數據團隊《用戶行爲分析模型實踐》系列文章第4篇 -留存分析模型。本文詳細介紹了留存分析模型的概念及基本原理，並

2024-04-19 11:26:00

ClickHouse 數據一致性保障的常用解決方案

在ClickHouse中，數據一致性是通過Mergetree引擎實現的。Mergetree引擎採用最終一致性的解決方案，即系統保證數據在最終狀態上是一致的，但在數據寫入過程中可能會存在短暫的不一致狀態。爲了保障數據一致性，ClickHous

2024-04-03 23:23:44

java線程池原理淺析

問題與解決：問題：查詢大數據量的時候，例如一次返回50w數據量的包，循環去查詢發現讀取會超時。解決方案：經過思考採用多線程去分頁查詢。使用線程池創建多個線程去查詢分頁後的數據最後彙總一下，解決了一次查詢大量數據返回超時的問

2024-03-28 12:13:15

【京東雲新品發佈月刊】2024年3月產品動態

1.【言犀模型服務】新品上線言犀模型服務平臺致力於爲開發者提供AI原生應用開發的全鏈路服務，內置豐富的應用插件，提供便捷的集成方式，結合企業專屬數據和API，助力企業高效完成大模型應用構建。 2.【數據庫管理服務DMS】新品上線

2024-03-28 12:13:12

數據庫只追求性能是不夠的！

那些成功的數據庫公司沒有一家是通過性能比競爭對手更快而成功的。作者：JORDAN TIGANI，DuckDB 公司 MotherDuck 聯合創始人&CEO 本文和封面來源：https://motherduck.com/，愛可生開源社區

2024-03-20 12:05:56

入職3年-我如何做一名AI產品經理

引言從2021年校招加入京東開始，我一直從事AI產品經理的工作，有幸見證了AI行業的熱情從一臺臺服務器燒到了全世界各個角落，也見證了京東AI中臺團隊的影響力如何一步步的擴大。從21年的迷茫到24年的堅定，很慶幸我正走在適合自己的道路上，

2024-04-22 11:16:31

Java HotSpot(TM) 64-Bit Server VM warning: Can't have more ConcGCThreads (16)

啓動presto服務錯誤： Java HotSpot(TM) 64-Bit Server VM warning: Can't have more ConcGCThreads (16) than ParallelGCThreads (13).

2024-03-20 22:15:25

數據湖三大框架

一、數據湖框架目前市面上流行的三大開源數據湖方案分別爲：Delta Lake、Apache Iceberg和Apache Hudi 1、Delta Lake：DataBricks公司推出的一種數據湖方案，官網 2、Apache Iceb

2024-03-14 00:16:55

Hive引擎底層初探

1、什麼是Hive Hive是一個基於Hadoop的數據倉庫工具,用於處理和分析大規模結構化數據。Hive提供了類似SQL的查詢語言(HiveQL)，使得熟悉SQL的用戶能夠查詢數據。Hive將SQL查詢轉換爲MapReduce任務，以在

2024-04-17 11:18:21

hive 、spark 、flink之想一想

hive 1：hive是怎麼產生的？ 2：hive的框架是怎麼樣的？ 3：hive 執行流程是什麼？ 4：hive sql是如何把sql語句一步一步到最後執行的？ 5：hive sql任務常用參數調優做過什麼？ spark 6：sp

2024-03-27 01:22:41

03-SparkSQL入門

0 Shark Spark 的一個組件，用於大規模數據分析的 SQL 查詢引擎。Shark 提供了一種基於 SQL 的交互式查詢方式，可以讓用戶輕鬆地對大規模數據集進行查詢和分析。Shark 基於 Hive 項目，使用 Hive 的元數據存

2024-03-24 02:48:20

Flink內存參數調優

背景 Flink作業設置內存參數後發現不是自己預期的資源分配方式，比如分配了4G內存結果只用了2G，其餘2G都是閒置的，導致Flink作業內存上限不夠用，內存超用時TaskManager容器會被Yarn集羣殺死。另外並行度與slot槽數在

2024-03-23 00:20:41

Flink自建集羣作業優化

1、如何消除流查詢的不確定性影響 set 'table.optimizer.non-deterministic-update.strategy' = 'TRY_RESOLVE'; 流查詢中的不確定更新(NDU)問題通常不是直觀的，可能較複雜

2024-03-13 12:20:17

24小時熱門文章

DAPPER 事務 TRANSACTION

最新文章

最新評論文章