利用ProxySQL、MySQL、ClickHouse快速構建HTAP系統
1. 關於ClickHouse
企業裏隨着數據量的增加,以及日趨複雜的分析性業務需求,主要適用於OLTP場景的MySQL壓力越來越大。多年前還能免費試用的infobright社區版也早就銷聲匿跡,infinidb被MariaDB收入囊中之後改頭換面變成ColumnStore,但最近幾年發展的平平淡淡,都不是理想的OLAP方案。
戰鬥民族出品的ClickHouse這幾年則是風頭正勁,國內用戶也越來越多,幾大公有云上也提供相應的產品服務,是目前市面上最快的OLAP數據庫,性能遠超Vertica、Sybase IQ等。關於ClickHouse的性能也可以關注我以前的一份測試報告:ClickHouse性能測試。
ClickHouse對MySQL的兼容性也很好,除了很多語法相同或接近外,甚至還可以利用MySQL客戶端(協議)連接到ClickHouse。
ClickHouse 可以掛載爲 MySQL 的一個從庫 ,先全量再增量的實時同步 MySQL 數據,這個功能可以說是今年最亮眼、最剛需的功能,基於它我們可以輕鬆的打造一套企業級解決方案,讓 OLTP 和 OLAP 的融合從此不再頭疼。目前支持 MySQL 5.6/5.7/8.0 版本,兼容 Delete/Update 語句,及大部分常用的 DDL 操作。只需要安裝最新版本的ClickHouse就可以體驗到這個新特性了,不過該特性還處於experimental階段,還在不斷完善中。
2. 關於ProxySQL
ProxySQL是一款強大的中間件爲MySQL的架構提供了有力的支持,支持傳統主從複製、半同步複製、MGR、PXC等多種MySQL架構,還支持故障自動檢測和切換、連接池、讀寫分離、日誌記錄、監控、集羣部署等多項實用功能。當然了,ProxySQL最大的缺點是性能損失較大,預計至少有20% ~ 30%的性能損失,因此如果是在高性能場景下可能不太合適。不過可以考慮通過分庫分表等方式降低單節點壓力,充分發揮ProxySQL的集羣功能。
3. 構建HTAP系統
ClickHouse和ProxySQL的安裝本文不再贅述,直接開始動手構建HTAP系統。下面是整體架構示意圖
3.1 將ClickHouse配置成爲MySQL的從庫
登入ClickHouse後,執行下面的命令啓用新特性:
clickhouse :) SET allow_experimental_database_materialize_mysql = 1;
在ClickHouse中,創建一個複製通道,即可構建一個MySQL複製從庫,例如:
clickhouse :) CREATE DATABASE test ENGINE = MaterializeMySQL('172.24.10.10:3306', 'test', 'repl', 'repl');
clickhouse :) use test;
clickhouse :) show tables;
┌─name─────┐
│ sbtest1 │
│ sbtest10 │
│ sbtest11 │
...
32 rows in set. Elapsed: 0.006 sec.
首次創建複製通道後,ClickHouse會快速從MySQL主庫讀取所有數據並應用,可以查看數據複製的進度:
[[email protected]]# cat metadata/sbtest/.metadata
Version: 2
Binlog File: binlog.001496
Executed GTID: 097ee9f2-2ded-11eb-9211-e4434ba52b50:1-952676723
Binlog Position: 789663343
Data Version: 2
提醒:在這裏,我設置的是主從複製專用賬號。相對於普通的主從複製賬號,用於ClickHouse從庫的賬號至少還要加上只讀權限,例如:
[[email protected]]> show grants for repl;
+--------------------------------------------------------------------------+
| Grants for repl@% |
+--------------------------------------------------------------------------+
| GRANT RELOAD, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO `repl`@`%` |
| GRANT SELECT ON `test`.* TO `repl`@`%` |
+--------------------------------------------------------------------------+
ClickHouse的MaterializeMySQL引擎從MySQL複製數據的速度非常之快,甚至比MySQL原生的從庫還要更快,大家可以親身感受體驗下。
接下來,再在ClickHouse中創建一個業務賬號,以及一個服務監控賬號(用於ProxySQL對後端服務的監控)。編輯ClickHouse的配置文件 users.xml,增加兩個用戶:
<app_user>
<password>app_user</password>
<networks incl="networks" replace="replace">
<ip>::/0</ip>
</networks>
<profile>default</profile>
<quota>default</quota>
</app_user>
<monitor>
<password>monitor</password>
<networks incl="networks" replace="replace">
<ip>::/0</ip>
</networks>
<profile>default</profile>
<quota>default</quota>
</monitor>
我只設置了簡單密碼,也沒有修改其權限和quota模式,僅演示用,線上生產環境請自行調整以合規。
3.2 配置ProxySQL
配置mysql_servers表,增加兩條記錄,並使配置生效:
proxysql> insert into mysql_servers(hostgroup_id, hostname, port) values('0', '172.24.10.10', '3306');
proxysql> insert into mysql_servers(hostgroup_id, hostname, port) values('1', '172.24.10.11', '9004');
proxysql> save mysql servers to disk; load mysql servers to run;
其中,172.24.10.10:3306 是MySQL主庫,172.24.10.11:9004是ClickHouse從庫,9004端口是ClickHouse裏給MySQL客戶端連接專用的,可以用MySQL客戶端(協議)連接進來執行各種操作。
hostgroup分別爲0和1,0用於讀寫組,1用於只讀組。
配置mysql_users表,加入業務賬號和監控賬號:
proxysql> select username,password,active from mysql_users;
+-----------+----------+--------+
| username | password | active |
+-----------+----------+--------+
| app_user | app_user | 1 |
| monitor | monitor | 1 |
+-----------+----------+--------+
proxysql> save mysql users to disk; load mysql users to runtime;
配置mysql_query_rules表,這個是關鍵,用於判斷將哪些SQL轉發到MySQL主庫,哪些轉發到ClickHouse:
proxysql> select rule_id, active, match_pattern,destination_hostgroup from mysql_query_rules;
+---------+--------+-------------------------+-----------------------+
| rule_id | active | match_pattern | destination_hostgroup |
+---------+--------+-------------------------+-----------------------+
| 1 | 1 | ^SELECT.*\+CLICKHOUSE.* | 1 |
+---------+--------+-------------------------+-----------------------+
proxysql> save mysql query rules to disk; load mysql query rules to run;
上述規則的意思是,當SELECT語句中包含 "+CLICKHOUSE" 關鍵字時,就會自動轉發到 ClickHouse 後端去處理,其餘的都發送到MySQL後端處理。例如下面這兩條SQL就會分別轉發到MySQL和ClickHouse後端:
#SQL #1
[[email protected]]> SELECT * FROM sbtest1 WHERE id=1;
#SQL #2
[[email protected]]> SELECT /*+CLICKHOUSE*/ * FROM sbtest1 WHERE id=1;
第二條SQL利用MySQL的註釋語法巧妙地實現規則HINT。
查詢 stats_mysql_query_digest 表的結果予以確認:
proxysql> select hostgroup, schemaname, username, digest, digest_text from stats_mysql_query_digest;
+-----------+------------+----------+--------------------+----------------------------------+
| hostgroup | schemaname | username | digest | digest_text |
+-----------+------------+----------+--------------------+----------------------------------+
| 0 | sbtest | app_user | 0x5662D7CF0442E794 | select * from sbtest1 where id=? |
| 1 | sbtest | app_user | 0x5662D7CF0442E794 | select * from sbtest1 where id=? |
+-----------+------------+----------+--------------------+----------------------------------+
可以看到,兩條SQL看起來一樣,但分別轉發到不同的hostgroup了。
最後配置ProxySQL的監控服務(可選,非必須):
proxysql> set mysql-monitor_enabled="true";
proxysql> set mysql-monitor_username="monitor";
proxysql> set mysql-monitor_password="monitor";
proxysql> save mysql variables to disk; load mysql variables to runtime;
至此,一個全部基於開源應用的簡易HTAP系統就構建好了。
4. 性能對比
在這裏,我選用ClickHouse官方提供的benchmark方案:Star Schema Benchmark。
編譯完成後先是利用ssb-dbgen生成測試數據(指定參數 -s 50):
./dbgen -s 50 -T c &
./dbgen -s 50 -T l &
./dbgen -s 50 -T p &
./dbgen -s 50 -T s &
./dbgen -s 50 -T d &
再創建幾個測試庫表,自行修改建表的DDL以適應MySQL語法。而後導入測試數據,最後根據文檔並生成 lineorder_flat 表。
[[email protected]]> show table status;
+----------------+--------+---------+------------+-----------+----------------+--------------+
| Name | Engine | Version | Row_format | Rows | Avg_row_length | Data_length |
+----------------+--------+---------+------------+-----------+----------------+--------------+
| customer | InnoDB | 10 | Dynamic | 1378209 | 120 | 166363136 |
| lineorder | InnoDB | 10 | Dynamic | 297927870 | 100 | 29871833088 |
| lineorder_flat | InnoDB | 10 | Dynamic | 292584926 | 430 | 125952851968 |
| part | InnoDB | 10 | Dynamic | 1192880 | 111 | 132792320 |
| supplier | InnoDB | 10 | Dynamic | 99730 | 110 | 11026432 |
+----------------+--------+---------+------------+-----------+----------------+--------------+
數據全部加載完畢後,再在ClickHouse中創建MaterializeMySQL複製通道:
clickhouse :) CREATE DATABASE ssb ENGINE = MaterializeMySQL('172.24.10.10:3380', 'ssb', 'repl', 'repl');
數據量比較大,耐心靜待它複製完成即可。
然後連接 ProxySQL,先簡單執行大表count(*),觀察耗時的不同:
#直接執行count(*),會轉發到後端 MySQL 實例
[[email protected]]> select count(*) from lineorder_flat;
+-----------+
| count(*) |
+-----------+
| 300005811 |
+-----------+
1 row in set (3 min 2.14 sec)
#加上HINT規則,會轉發到後端 ClickHouse 實例
[[email protected]]> select /*+CLICKHOUSE*/ count(*) from lineorder_flat;
+-----------+
| count(*) |
+-----------+
| 300005811 |
+-----------+
1 row in set (5.67 sec)
光是 count(*) 就差了好多倍。
再選取其中前4個SQL測試,記錄的耗時如下:
Query | MySQL | ClickHouse(從庫) | ClickHouse(原生) |
---|---|---|---|
Q1.1 | 308.388684 | 0.149 | 0.107 |
Q1.2 | 320.373203 | 0.280 | 0.027 |
Q1.3 | 279.673361 | 0.346 | 0.030 |
Q2.1 | 286.451062 | 1.246 | 0.489 |
很明顯,直接在MySQL上查詢的效率實在太低了,而作爲從庫的MaterializeMySQL和ClickHouse原生的MergeTree表雖然也有一定差距,但相差也沒那麼大了,還算是很快的。
4. 其他說明
-
ClickHouse的MaterializeMySQL中 不支持 create like 語法。例如執行 create table db2.a like db1.a,其中db1是要複製到ClickHouse的,而db2是留在MySQL端,即便這樣也會導致ClickHouse端複製報錯,需要重啓纔行。 -
ClickHouse的MaterializeMySQL中也 不支持函數索引。 -
偶爾發現ProxySQL的監控模塊連接到ClickHouse後,會發送 SET wait_timeout=N 命令,會導致ClickHouse報錯,但不影響正常使用。 重啓ProxySQL,或者重啓監控開關都可以解決。
Enjoy it :)
延伸閱讀
-
ClickHouse性能測試 -
MySQL實時複製與實現 -
ClickHouse MaterializeMySQL實時同步MySQL彙總 -
MySQL-ProxySQL中間件(一) -
MySQL-ProxySQL中間件(二)
葉老師的「MySQL核心優化」大課已升級到MySQL 8.0,掃碼開啓MySQL 8.0修行之旅吧
本文分享自微信公衆號 - 老葉茶館(iMySQL_WX)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。