【clickhouse專欄】對標mongodb存儲類JSON數據文檔統計分析

一、文檔存儲的需求

很多的開發者都使用過mongodb,在mongodb中數據記錄是以文檔的形式存在的(類似於一種多級嵌套SQL的形式)。比如下面的JSON數據結構:dev_ip表示某一臺服務器的ip、location字段存放經緯度、meminfo.total和meminfo.userd分別代表內存總量和使用量。

[{
  "dev_ip": "123.46.5.111",
  "location": [39.916527, 116.397128],
  "meminfo": {
    "total": 64,
    "used": 23.2
  }
},
{
  "dev_ip": "123.46.5.112",
  "location": [39.916144, 116.392582],
  "meminfo": {
    "total": 64,
    "used": 27.8
  }
}]

二、建表

存儲文檔需要使用到Map這種數據類型,在某些比較舊的版本中,Map數據類型還是實驗性的,不能直接使用。如果想使用,需要執行set allow_experimental_map_type = 1;
然後我們可以按照JSON的數據結構來建表,location是數組Array數據類型,meminfo是Map數據類型。

CREATE TABLE dev_meminfo (
  dev_ip String,  
  location Array(Float64),
  meminfo Map(String, Float32)
)
ENGINE = MergeTree()
ORDER BY dev_ip;

clickhouse提供了數組類型Array(T),數組類型由多個T元素組成。T可以是任意的基礎數據類型,或者也可以是數組類型。如果是數組類型就形成了多維數組,Cickhouse對多維數組的支持有限,所以不建議使用多維數組。數組裏面所有的T元素的數據類型必須是一樣的,否則會拋出異常。

三、數據入庫

在linux環境下,我們可以將JSON數據保存爲一個文檔,命名如:dev_meminfo.json。然後使用下面的命令行,完成文檔JSON數據的入庫。jq的作用是將JSON數組及Map從結構中剝離出來,從而符合JSONEachRow要求的輸入格式。

cat dev_meminfo.json |jq -c .[] | clickhouse-client --database acaidb -m -u acai --password '<你的密碼>'  \
--query="INSERT INTO dev_meminfo FORMAT JSONEachRow"

或者我們可以直接使用INSERT語句來完成數據的單條插入,如下:

INSERT  INTO dev_meminfo FORMAT JSONEachRow {"dev_ip": "123.46.5.112", "location": [39.916144, 116.392582],"meminfo": {"total": 64,"used": 27.8}};

四、查詢數據

select * 的方式查詢數據:

#  clickhouse-client --database acaidb -m -u acai --password '4rfv$RFV'  --query="SELECT * FROM dev_meminfo"
123.46.5.111    [39.916527,116.397128]  {'total':64,'used':23.2}
123.46.5.112    [39.916144,116.392582]  {'total':64,'used':27.8}

使用字段名稱方式查詢數據,需要注意的是Ciickhouse的數組的下標是從0開始的,這與我們傳統編程開發中的規範是不一致的。

# clickhouse-client --database acaidb -m -u acai --password '4rfv$RFV'  --query="SELECT dev_ip,location[1],location[2],meminfo['total'],meminfo['used'] FROM dev_meminfo"
123.46.5.111    39.916527       116.397128      64      23.2
123.46.5.112    39.916144       116.392582      64      27.8

五、總結

我們看到clickhouse可以代替mongodb進行類JSON文檔數據的存儲,而且支持SQL查詢統計分析,這一點是比較吸引人的。我只是介紹了簡單的查詢,其實針對各種統計分析場景,clickhouse提供了超級多的統計分析函數、窗口函數等等,當然針對數組的數據類型也有很多的統計分析函數。
更爲值得注意的是:筆者看到一些測評文章,clickhouse的的統計分析性能是mongodb的近百倍之多(筆者自己尚未驗證,請關注我的專欄後續文章)。但是也不是說clickhouse可以代替mongodb的所有應用場景,至少面向用戶的併發請求的場景clickhouse是不滿足的,因爲clickhouse的定位是數據倉庫,主要是面向數據分析OLAP場景,而不是面向用戶高併發的聯機事務處理OLTP。

推薦閱讀

限於博文篇幅,更多精彩內容我就不一一列舉了,推薦閱讀
《原創精品視頻及配套文檔:springboot-已錄製97節(免費)》
等等等等

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章