Kylin(一)-kylin的介紹及安裝

一、kylin的簡單介紹

kylin是apache的社區的一員,官網地址http://kylin.apache.org/
最初由ebay開發並貢獻至開源社區。
Apache Kylin™是一個開源的、分佈式的分析型數據倉庫,提供Hadoop/Spark 之上的 SQL 查詢接口及多維分析(OLAP)能力以支持超大規模數據。
它能在亞秒內查詢巨大的表。

Apache Kylin™ 令使用者僅需三步,即可實現超大數據集上的亞秒級查詢。

  1. 定義數據集上的一個星形或雪花形模型 2在定義的數據表上構建cube 3使用標準
  2. SQL 通過 ODBC、JDBC 或 RESTFUL
  3. API 進行查詢,僅需亞秒級響應時間即可獲得查詢結果

在這裏插入圖片描述

由以上可以看出

  1. kylin是採用提前將計算結果計算好並存儲到hbase中這種”空間換時間“的方式
  2. 所以kylin可以在秒級查詢出多維度、多表關聯、大數據量的聚合計算結果
  3. 由於使用”空間換時間“,kylin數據的膨脹率會很大

二、部署

部署的kylin版本爲2.6.6

2.1 軟件環境

jdk 1.8+
hadoop 2.7+
hive 0.12+
hbase 1.1+
os centos7

2.2 下載

kylin的安裝包可以從官網下載 http://kylin.apache.org/cn/download/
或者自己下載git代碼編譯
安裝獲取到後,解壓到文件夾

2.3 部署

kylin依賴hive、hbase、hadoop(hdfs和yarn),kylin啓動的時候會檢測這些組件是否有安裝,以上組件的安裝可以在我博客的分類裏面查找。

2.4 單機部署

kylin解壓之後,默認不用調整任何參數,執行啓動命令即可啓動
shell bin/kylin.sh start
啓動過程中如果報錯,大部分錯誤應該和以上依賴組件沒有安裝有關係

2.5 集羣部署

kylin的節點分爲
query:查詢節點,只負責處理用戶的查詢請求
job:任務節點,用於執行kylin構建cube的任務
all:以上兩個功能皆有

兩種節點的分配,可跟實際情況來調整,或者你都設置成all也可以。
在實際生產環境中,job build過程中由於會消耗大量cpu和內存會影響查詢,所以job和query節點一般都是分開

配置節點類型和集羣節點
打開conf/kyin.properties

# 配置節點類型
kylin.server.mode=all
kylin.server.cluster-servers=node1:7070,node2:7070

如果有多個節點記得一定要配置kylin.server.cluster-servers,這個配置kylin用來同步節點間的元數據信息。

啓動
shell bin/kylin.sh start

2.6 問題故障

啓動時kylin會檢測依賴的組件,可根據報錯來看哪個依賴組件沒有安裝,或者沒有啓動。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章