Clickhouse單機及集羣部署詳解

一、ClickHouse簡介

ClickHouse是近年來備受關注的開源列式數據庫,主要用於數據分析(OLAP)領域。目前國內社區火熱,各個大廠紛紛跟進大規模使用:

  • 今日頭條 內部用ClickHouse來做用戶行爲分析,內部一共幾千個ClickHouse節點,單集羣最大1200節點,總數據量幾十PB,日增原始數據300TB左右。
  • 騰訊內部用ClickHouse做遊戲數據分析,並且爲之建立了一整套監控運維體系。
  • 攜程內部從18年7月份開始接入試用,目前80%的業務都跑在ClickHouse上。每天數據增量十多億,近百萬次查詢請求。
  • 快手內部也在使用ClickHouse,存儲總量大約10PB, 每天新增200TB, 90%查詢小於3S。

在國外,Yandex內部有數百節點用於做用戶點擊行爲分析,CloudFlare、Spotify等頭部公司也在使用。

二、ClickHouse指定版本單機安裝與配置

1、查看cpu是否支持sse4

grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"

2、下載RPM離線安裝包 

(1)在線下載很慢,可以先下載離線rpm安裝包,推薦到https://packagecloud.io/Altinity/clickhouse/下載對應的版本號。

(2)在線下載RPM安裝包

sudo wget --content-disposition https://packagecloud.io/Altinity/clickhouse/packages/el/7/clickhouse-client-19.17.4.11-1.el7.x86_64.rpm/download.rpm
sudo wget --content-disposition https://packagecloud.io/Altinity/clickhouse/packages/el/7/clickhouse-server-common-19.17.4.11-1.el7.x86_64.rpm/download.rpm
sudo wget --content-disposition https://packagecloud.io/Altinity/clickhouse/packages/el/7/clickhouse-common-static-19.17.4.11-1.el7.x86_64.rpm/download.rpm
sudo wget --content-disposition https://packagecloud.io/Altinity/clickhouse/packages/el/7/clickhouse-server-19.17.4.11-1.el7.x86_64.rpm/download.rpm
sudo wget --content-disposition https://packagecloud.io/Altinity/clickhouse/packages/el/7/clickhouse-test-19.17.4.11-1.el7.x86_64.rpm/download.rpm
sudo wget --content-disposition https://packagecloud.io/Altinity/clickhouse/packages/el/7/clickhouse-debuginfo-19.17.4.11-1.el7.x86_64.rpm/download.rpm

後面兩個RPM安裝包可以不用下載

3、使用rpm -ivh ./*.rpm 安裝clickhouse,安裝中可能會有依賴沒有下載導致報錯,安裝完依賴繼續安裝,可以使用rpm -e *.rpm 移除已安裝的安裝包

/etc/clickhouse-server   clickhouse服務的配置文件目錄,包括:config.xml和users.xml
/etc/clickhouse-client    clickhouse客戶端的配置文件目錄,裏面只有一個config.xml並且默認爲空
/var/lib/clickhouse     clickhouse默認數據目錄
/var/log/clickhouse-server    clickhouse默認日誌目錄
/etc/init.d/clickhouse-server   clickhouse啓動shell腳本,用來方便啓動服務的.
/etc/security/limits.d/clickhouse.conf   最大文件打開數的配置,這個在config.xml也可以配置
/etc/cron.d/clickhouse-server    clickhouse定時任務配置,默認沒有任務,但是如果文件不存在啓動會報錯.
/usr/bin    clickhouse編譯好的可執行文件目錄,主要有下面幾個:
    clickhouse     clickhouse主程序可執行文件
    clickhouse-compressor
    clickhouse-client      是一個軟鏈指向clickhouse,主要是客戶端連接操作使用
    clickhouse-server     是一個軟鏈接指向clickhouse,主要是服務操作使用

4、配置clickhouse配置文件

主要需要配置的文件是/etc/clickhouse-server/config.xml、/etc/clickhouse-server/users.xml

(1)config.xml配置

這部分配置clickhouse-server的日誌存放目錄以及http和tcp請求端口號

配置clickhouse可以被遠程ip訪問

這一部分是分別配置clickhouse的數據存放目錄、臨時文件存放目錄、用戶文件路徑

(2)users.xml

<users></users>裏面默認會有一個用戶名爲default的用戶,密碼默認爲空,可以配置<password></password>設置用戶密碼

新增加一個用戶名爲ck,密碼爲ckreadonly的用戶,profile屬性爲readonly表示該用戶是隻讀用戶

三、clickhosue單機在線安裝最新版本clickhouse

sudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPG
sudo yum-config-manager --add-repo https://repo.clickhouse.tech/rpm/clickhouse.repo
sudo yum install clickhouse-server clickhouse-client
sudo /etc/init.d/clickhouse-server start
clickhouse-client

按照上面步驟即可

四、ClickHouse單機版連接與操作

(1)啓動clickhouse服務

service clickhouse-server start/service clickhouse-server stop

(2)啓動clickhouse-client連接操作clickhouse

clickhouse-client -h 172.16.2.161 -u default – password default

(3)使用java操作clickhouse的jdbc驅動來訪問clickhouse

五、ClickHouse集羣部署

1、上面的clickhouse單機版安裝比較容易,上面是從https://packagecloud.io/Altinity/clickhouse/下載的el7安裝包,可能由於時間原因現在訪問沒有centos6的rpm包,所以在centos6上安裝clickhouse的需要el6的rpm的安裝包,可以從http://repo.yandex.ru/clickhouse/rpm/stable/x86_64/這裏下載指定版本的clickhouse rpm64位包,主要是從該倉庫中下載以下安裝包:

clickhouse-client-20.6.3.28-2.noarch.rpm
clickhouse-common-static-20.6.3.28-2.x86_64.rpm
clickhouse-server-20.6.3.28-2.noarch.rpm

下載完畢後按照上面步驟二進行各個服務器節點的單機版本安裝,對於配置config.xml和users.xml文件在一個節點配置後同步到其他集羣節點中即可。

2、部署zookeeper集羣,在這裏就不說了

3、單機版和集羣版的區別就是多了一個配置clickhouse分片和副本規則,創建配置文件/etc/metrika.xml,注意要在/etc目錄下面

<?xml version="1.0" encoding="utf-8"?>
<yandex>
<!-- 集羣配置 -->
<clickhouse_remote_servers>
<perftest_3shards_1replicas>
<!-- 數據分片1 -->
<shard>
<internal_replication>true</internal_replication>
<replica>
<host>172.16.2.161</host>
<port>9003</port>
<user>default</user>
<password>default</password>
</replica>
</shard>
<!-- 數據分片2 -->
<shard>
<internal_replication>true</internal_replication>
<replica>
<host>172.16.2.165</host>
<port>9003</port>
<user>default</user>
<password>default</password>
</replica>
</shard>
<!-- 數據分片3 -->
<shard>
<internal_replication>true</internal_replication>
<replica>
<host>172.16.2.241</host>
<port>9003</port>
<user>default</user>
<password>default</password>
</replica>
</shard>
</perftest_3shards_1replicas>
</clickhouse_remote_servers>

<zookeeper-servers>
<node index="1">
<host>172.16.2.232</host>
<port>2181</port>
</node>
<node index="2">
<host>172.16.2.233</host>
<port>2181</port>
</node>
<node index="3">
<host>172.16.2.234</host>
<port>2181</port>
</node>
<node index="4">
<host>172.16.2.235</host>
<port>2181</port>
</node>
<node index="5">
<host>172.16.2.236</host>
<port>2181</port>
</node>
</zookeeper-servers>
<macros>
<replica>172.16.2.161</replica>
</macros>

<networks>
<ip>::/0</ip>
</networks>
<!-- 數據壓縮算法 -->
<clickhouse_compression>
<case>
<min_part_size>10000000000</min_part_size>
<min_part_size_ratio>0.01</min_part_size_ratio>
<method>lz4</method>
</case>
</clickhouse_compression>
</yandex>

配置文件中配置的3分片1副本模式,配置完畢後同步到其他節點即可。

4、按照步驟四里的方式在每一臺集羣節點上啓動clickhouse服務並進入clickhouse-client客戶端連接

5、測試集羣是否安裝成功,使用select * from system.clusters

出現這個說明安裝成功,clickhouse tcp端口默認是9000我這因爲端口占用所以修改成了9003端口了。

六、集羣版clickhouse通過jdbc連接操作

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章