ClickHouse 对接 Kafka，将数据导入到 SummingMergeTree 表中

原創

exception_index

2020-06-14 12:21

一、ClickHouse 和 Kafka 对接

1、官方文档地址

https://clickhouse.tech/docs/zh/engines/table-engines/integrations/kafka/

2、三个步骤

（1）使用引擎创建一个 Kafka 消费者并作为一条数据流（这个表中的数据只能被查询一次）。

CREATE TABLE `queue`
(
    `date` UInt64, 
    `name` String, 
    `operation` String
)
ENGINE = Kafka('node01:9092:node02:9092,node03:9092', 'topic-name', 'topic-group-id', 'JSONEachRow');

（2）创建一个结构表（结构化的表）。

CREATE TABLE `test`
(
    `date` Date, 
    `name` String, 
    `operation` String, 
    `count` UInt64
)
ENGINE = SummingMergeTree((count))
PARTITION BY toYYYYMMDD(date)
ORDER BY (`date`,`name`,`operation`);

（3）创建物化视图，改视图会在后台转换引擎中的数据并将其放入之前创建的表中。

CREATE MATERIALIZED VIEW `queue-view` TO `test` AS
SELECT 
    toDate(date/1000) AS date, 
    name, 
    operation, 
    1 AS count
FROM `queue`
WHERE name IS NOT NULL;

二、将数据导入到 SummingMergeTree

1、SummingMergeTree 简介

（1）主要参数参数

CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
    name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1],
    name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2],
    ...
) ENGINE = SummingMergeTree([columns])
[PARTITION BY expr]
[ORDER BY expr]
[SAMPLE BY expr]
[SETTINGS name=value, ...]

SummingMergeTree([columns])：[]为选填项，0个或1个参数，columns为一个元组，表示需要进行 sum 操作的列。

[PARTITION BY expr]：按照 expr 进行分区。

[ORDER BY expr]：按照 order by 后面的列（也就是主键）进行聚合，累加 [columns] 这些列。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Kafka-producer-perf-test-0.10.2.1-压测脚本改造

最近網關和業務的日誌線上都是4萬/秒，然後需要用flink算一下每個業務的異常數，週期性輸出分析結果既然是4萬/秒，那麼我起碼得壓個10萬/秒才能安心上線，那麼問題來了，怎麼構造10萬/秒的壓力（單條消息1K） ---這裏選擇官方的Kaf

2023-07-07 21:22:35

1关于flink的时间字段-ProcessTime-重新debug-读kafka->通知观察方(含正确脚本)

之前爲了趕項目進度(人少，沒資源)，只研究了下針對processing time，因爲這個取的是當前時間，通過爭取時間快速支撐了一些業務的上線。而隨着業務的陸續接入，全部使用processing time已經開始有不妥之處，所以必須把這個

2023-07-07 21:22:31

聊聊 Kafka：Producer 源码解析

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"一、前言","att

老周聊架构

2021-12-17 17:58:58

聊聊 Kafka：编译 Kafka 源码并搭建源码环境

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"一、前言","att

老周聊架构

2021-12-16 12:43:53

替代 Kafka？Pinterest 推出高效可扩展云原生系统 MemQ

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Pinterest Engineering

2021-12-15 17:03:56

聊聊 Kafka： Kafka 为啥这么快？

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"一、前言","att

老周聊架构

2021-12-14 13:33:55

东南亚“美团” Grab 的搜索索引优化之法

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-11-23 11:18:54

Kafka消息生成，消费，存储机制

Kafka是最初由Linkedin公司開發，是一個分佈式、分區的、多副本的、多訂閱者，基於zookeeper協調的分佈式日誌系統(也可以當做MQ系統)，常見可以用於web/nginx日誌、訪問日誌，消息服務等等，Linkedin於2010

2021-09-15 21:10:25

监控微服务

1、監控指標 1）qps，pv 2）響應時間。大多數情況下，可以用一段時間內所有調用的平均耗時來反映請求的響應時間。但它只代表了請求的平均快慢情況，有時候我們更關心慢請求的數量。P99 = 500ms，意思是 99% 的請求

2021-09-10 21:35:12

数据迁移同步平台CloudCanal免费社区版正式发布

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragr

2021-08-06 15:13:50

深度解读：Kafka放弃ZooKeeper，消息系统兴起二次革命

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-04-16 10:33:50

简单的Kafka：没有ZooKeeper的Kafka

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-04-07 18:43:54

实时数据仓库的发展、架构和趋势

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-04-02 09:43:51

你可能用错了kafka的重试机制

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-03-22 18:35:34

Uber大型实时数据智能平台建设

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Uber工程博客

2021-03-22 18:35:34

24小時熱門文章

最新文章

最新評論文章