1. 副本
副本的目的主要是保障數據的高可用性,即使一臺ClickHouse節點宕機,那麼也可以從其他服務器獲得相同的數據。
副本寫入流程
副本的配置步驟
①
- 啓動zookeeper集羣 (hadoop102、 hadoop103、 hadoop104 三臺機器)
- 在hadoop102的/etc/clickhouse-server/config.d目錄下創建一個名爲metrika.xml的配置文件,內容如下:
<?xml version="1.0"?>
<yandex>
<zookeeper-servers>
<node index="1">
<host>hadoop102</host>
<port>2181</port>
</node>
<node index="2">
<host>hadoop103</host>
<port>2181</port>
</node>
<node index="3">
<host>hadoop104</host>
<port>2181</port>
</node>
</zookeeper-servers>
</yandex>
② 在 hadoop02的/etc/clickhouse-server/config.xml中增加
<include_from>/etc/clickhouse-server/config.d/metrika.xml</include_from>
③ 將metrika.xml和 config.xml 同步到hadoop103和hadoop104上
- scp /etc/clickhouse-server/config.d/metrika.xml root@hadoop103:/etc/clickhouse-server/config.d/metrika.xml
- scp /etc/clickhouse-server/config.d/metrika.xml root@hadoop104:/etc/clickhouse-server/config.d/metrika.xml
- scp /etc/clickhouse-server/config.xml root@hadoop103:/etc/clickhouse-server/config.xml
- scp /etc/clickhouse-server/config.xml root@hadoop104:/etc/clickhouse-server/config.xml
④ 分別在hadoop102、hadoop103 和hadoop104上啓動ClickHouse服務
注意:因爲修改了配置文件,如果以前啓動了服務需要重啓
[kris@hadoop102 clickhouse]$ sudo systemctl start clickhouse-server
[kris@hadoop102 clickhouse]$ ps -ef | grep clickhouse
clickho+ 15120 1 2 16:55 ? 00:00:02 /usr/bin/clickhouse-server --config=/etc/clickhouse-server/config.xml --pid-file=/run/clickhouse-server/clickhouse-server.pid
kris 15213 4745 0 16:56 pts/2 00:00:00 grep --color=auto clickhouse
副本只能同步數據,不能同步表結構,所以我們需要在每臺機器上自己手動建表
###在hadoop102上創建如下表
create table t_order_rep (
id UInt32,
sku_id String,
total_amount Decimal(16,2),
create_time Datetime
) engine =ReplicatedMergeTree('/clickhouse/tables/01/t_order_rep','rep_102')
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id,sku_id);
##在hadoop103上創建如下表
create table t_order_rep (
id UInt32,
sku_id String,
total_amount Decimal(16,2),
create_time Datetime
) engine =ReplicatedMergeTree('/clickhouse/tables/01/t_order_rep','rep_103')
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id,sku_id);
#在hadoop104上創建如下表
create table t_order_rep (
id UInt32,
sku_id String,
total_amount Decimal(16,2),
create_time Datetime
) engine =ReplicatedMergeTree('/clickhouse/tables/01/t_order_rep','rep_104')
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id,sku_id);
參數解釋
ReplicatedMergeTree 中,
第一個參數是分片的zk_path一般按照: /clickhouse/table/{shard}/{table_name} 的格式寫,如果只有一個分片就寫01即可。
第二個參數是副本名稱,相同的分片副本名稱不能相同。
在hadoop102上執行insert語句
insert into t_order_rep values
(101,'sku_001',1000.00,'2020-06-01 12:00:00'),
(102,'sku_002',2000.00,'2020-06-01 12:00:00'),
(103,'sku_004',2500.00,'2020-06-01 12:00:00'),
(104,'sku_002',2000.00,'2020-06-01 12:00:00'),
(105,'sku_003',600.00,'2020-06-02 12:00:00');
測試:
hadoop102 :) select * from t_order_rep;
hadoop103 :) select * from t_order_rep;
hadoop104 :) select * from t_order_rep;
都可以看到數據,查詢出結果,說明配置成功
2. 分片集羣
副本雖然能夠提高數據的可用性,降低丟失風險,但是每臺服務器實際上必須容納全量數據,對數據的橫向擴容沒有解決。
要解決數據水平切分的問題,需要引入分片的概念。通過分片把一份完整的數據進行切分,不同的分片分佈到不同的節點上,再通過Distributed表引擎把數據拼接起來一同使用。
Distributed表引擎本身不存儲數據,有點類似於MyCat之於MySql,成爲一種中間件,通過分佈式邏輯表來寫入、分發、路由來操作多臺節點不同分片的分佈式數據。
注意:ClickHouse的集羣是表級別的,實際企業中,大部分做了高可用,但是沒有用分片,避免降低查詢性能以及操作集羣的複雜性。
集羣寫入流程(3分片2副本共6個節點)
集羣讀取流程(3分片2副本共6個節點)
集羣配置(3分片2副本共6個節點)
配置的位置還是在之前的/etc/clickhouse-server/config.d/metrika.xml,內容如下
<yandex> <clickhouse_remote_servers> <gmall_cluster> <!-- 集羣名稱--> <shard> <!--集羣的第一個分片--> <internal_replication>true</internal_replication> <!--該分片的第一個副本--> <replica> <host>hadoop201</host> <port>9000</port> </replica> <!--該分片的第二個副本--> <replica> <host>hadoop202</host> <port>9000</port> </replica> </shard> <shard> <!--集羣的第二個分片--> <internal_replication>true</internal_replication> <replica> <!--該分片的第一個副本--> <host>hadoop203</host> <port>9000</port> </replica> <replica> <!--該分片的第二個副本--> <host>hadoop204</host> <port>9000</port> </replica> </shard> <shard> <!--集羣的第三個分片--> <internal_replication>true</internal_replication> <replica> <!--該分片的第一個副本--> <host>hadoop205</host> <port>9000</port> </replica> <replica> <!--該分片的第二個副本--> <host>hadoop206</host> <port>9000</port> </replica> </shard> </gmall_cluster> </clickhouse_remote_servers> </yandex>
配置3節點版本集羣及副本
集羣及副本規劃(2個分片,只有第一個分片有副本)
[root@hadoop102 config.d]# vim /etc/clickhouse-server/config.d/metrika-shard.xml
<?xml version="1.0"?> <yandex> <clickhouse_remote_servers> <gmall_cluster> <!-- 集羣名稱--> <shard> <!--集羣的第一個分片--> <internal_replication>true</internal_replication> <replica> <!--該分片的第一個副本--> <host>hadoop102</host> <port>9000</port> </replica> <replica> <!--該分片的第二個副本--> <host>hadoop103</host> <port>9000</port> </replica> </shard> <shard> <!--集羣的第二個分片--> <internal_replication>true</internal_replication> <replica> <!--該分片的第一個副本--> <host>hadoop104</host> <port>9000</port> </replica> </shard> </gmall_cluster> </clickhouse_remote_servers> <zookeeper-servers> <node index="1"> <host>hadoop102</host> <port>2181</port> </node> <node index="2"> <host>hadoop103</host> <port>2181</port> </node> <node index="3"> <host>hadoop104</host> <port>2181</port> </node> </zookeeper-servers> <macros> <shard>01</shard> <!--不同機器放的分片數不一樣--> <replica>rep_1_1</replica> <!--不同機器放的副本數不一樣--> </macros> </yandex>
(2) 將hadoop102的metrika-shard.xml同步到103和104
- [root@hadoop102 config.d]# scp /etc/clickhouse-server/config.d/metrika-shard.xml root@hadoop103:/etc/clickhouse-server/config.d/metrika-shard.xml
- [root@hadoop102 config.d]# scp /etc/clickhouse-server/config.d/metrika-shard.xml root@hadoop104:/etc/clickhouse-server/config.d/metrika-shard.xml
(3) 修改103和104中metrika-shard.xml宏的配置
##103
[root@hadoop103 ~]$ vim /etc/clickhouse-server/config.d/metrika-shard.xml
<macros>
<shard>01</shard> <!--不同機器放的分片數不一樣-->
<replica>rep_1_2</replica> <!--不同機器放的副本數不一樣-->
</macros>
##104
[root@hadoop104 ~]$ vim /etc/clickhouse-server/config.d/metrika-shard.xml
<macros>
<shard>02</shard> <!--不同機器放的分片數不一樣-->
<replica>rep_2_1</replica> <!--不同機器放的副本數不一樣-->
</macros>
(4) 在hadoop102上修改/etc/clickhouse-server/config.xml
(5) 同步/etc/clickhouse-server/config.xml到103和104
- [root@hadoop102 config.d]# scp /etc/clickhouse-server/config.xml root@hadoop103:/etc/clickhouse-server/config.xml
- [root@hadoop102 config.d]# scp /etc/clickhouse-server/config.xml root@hadoop104:/etc/clickhouse-server/config.xml
(6) 重啓三臺服務器上的ClickHouse服務
- sudo systemctl stop clickhouse-server
- sudo systemctl start clickhouse-server
- ps -ef |grep click
(7) 在hadoop102上執行建表語句
- 會自動同步到hadoop103和hadoop104上
- 集羣名字要和配置文件中的一致
- 分片和副本名稱從配置文件的宏定義中獲取
#啓動客戶端,並創建表
clickhouse-client -m
create table st_order_mt on cluster gmall_cluster (
id UInt32,
sku_id String,
total_amount Decimal(16,2),
create_time Datetime
) engine =ReplicatedMergeTree('/clickhouse/tables/{shard}/st_order_mt_0105','{replica}')
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id,sku_id);
可以到hadoop103和hadoop104上查看錶是否創建成功
(8) 在hadoop102上創建Distribute 分佈式表
create table st_order_mt_all on cluster gmall_cluster
(
id UInt32,
sku_id String,
total_amount Decimal(16,2),
create_time Datetime
)engine = Distributed(gmall_cluster,default, st_order_mt,hiveHash(sku_id));
參數含義
Distributed(集羣名稱,庫名,本地表名,分片鍵)
分片鍵必須是整型數字,所以用hiveHash函數轉換,也可以rand()
(9) 在hadoop102上插入測試數據
insert into st_order_mt_all values
(201,'sku_001',1000.00,'2020-06-01 12:00:00') ,
(202,'sku_002',2000.00,'2020-06-01 12:00:00'),
(203,'sku_004',2500.00,'2020-06-01 12:00:00'),
(204,'sku_002',2000.00,'2020-06-01 12:00:00'),
(205,'sku_003',600.00,'2020-06-02 12:00:00');
(10)通過查詢分佈式表和本地表觀察輸出結果
分佈式表:SELECT * FROM st_order_mt_all;
本地表: select * from st_order_mt;
觀察數據的分佈