Kylin 大數據OLAP引擎
Kylin簡介
Kylin的誕生背景
- Kylin-中國團隊研發的,是第一個真正由中國人自己主導、從零開始、自主研發、併成爲Apache頂級開源項目
- Hive的性能比較慢,支持SQL靈活查詢,特別慢
- HBase的性能快,原生不支持SQL - phoenix:可以寫sql語句來查詢hbase!!
- Kylin是將先將數據進行預處理,將預處理的結果放在HBase中。效率很高
Kylin的應用場景
Kylin 典型的應用場景如下:
- 用戶數據存在於Hadoop HDFS中,利用Hive將HDFS文件數據以關係數據方式存取,數據量巨大,在500G以上
- 每天有數G甚至數十G的數據增量導入
- 有10個以內較爲固定的分析維度
Kylin 的核心思想是利用空間換時間,在數據 ETL 導入 OLAP 引擎時提前計算各維度的聚合結果並持久化保存
爲什麼要使用Kylin
- Kylin 是一個 Hadoop 生態圈下的 MOLAP 系統,是 ebay 大數據部門從2014 年開始研發的支持 TB 到 PB 級別數據量的分佈式 Olap 分析引擎。其特點包括:
- 可擴展的超快的 OLAP 引擎
- 提供 ANSI-SQL 接口
- 交互式查詢能力
- MOLAP Cube 的概念
- 與 BI 工具可無縫整合
Kylin的總體架構
- Kylin 依賴於 Hadoop、Hive、Zookeeper 和 Hbase
Kylin安裝
依賴環境
軟件 |
版本 |
Apache hbase-1.1.1-bin.tar.gz |
1.1.1 |
spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz |
2.2.0-bin-cdh5.14.0 |
apache-kylin-2.6.3-bin-hbase1x.tar.gz |
2.6.3 |
集羣規劃
主機名 |
IP |
守護進程 |
node1 |
192.168.88.120 |
NameNode DataNode RunJar(Hive metastore) RunJar(Hive hiveserver2) QuorumPeerMain HMaster HRegionServer kylin NodeManager |
node2 |
192.168.88.121 |
SecondaryNameNode JobHistoryServer DataNode HRegionServer QuorumPeerMain ResourceManager HistoryServer NodeManager |
node3 |
192.168.88.122 |
HRegionServer NodeManager DataNode QuorumPeerMain |
注意:
- kylin-2.6.3-bin-hbase1x所依賴的hbase爲1.1.1版本
要求hbase的hbase.zookeeper.quorum值必須只能是host1,host2,...。不允許出現host:2181,..
安裝kylin-2.6.3-bin-hbase1x
## 解壓apache-kylin-2.6.3-bin-hbase1x.tar.gz
tar -zxf /export/softwares/apache-kylin-2.6.3-bin-hbase1x.tar.gz -C /export/servers/
增加kylin依賴組件的配置
/export/servers/apache-kylin-2.6.3-bin-hbase1x/conf
ln -s $HADOOP_HOME/etc/hadoop/hdfs-site.xml hdfs-site.xml
ln -s $HADOOP_HOME/etc/hadoop/core-site.xml core-site.xml
ln -s $HBASE_HOME/conf/hbase-site.xml hbase-site.xml
ln -s $HIVE_HOME/conf/hive-site.xml hive-site.xml
ln -s $SPARK_HOME/conf/spark-defaults.conf spark-defaults.conf
配置kylin.sh
/export/servers/apache-kylin-2.6.3-bin-hbase1x/bin
vim kylin.sh
kylin.sh文件添加如下內容:
export HADOOP_HOME=/export/servers/hadoop-2.6.0-cdh5.14.0
export HIVE_HOME=/export/servers/hive-1.1.0-cdh5.14.0
export HBASE_HOME=/export/servers/hbase-1.1.1
export SPARK_HOME=/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0
配置conf/kylin.properties
見資源!
初始化kylin在hdfs上的數據路徑
hadoop fs -mkdir -p /apps/kylin
啓動集羣
1、啓動zookeeper
2、啓動HDFS
3、啓動YARN集羣
4、啓動HBase集羣
5、啓動 metastore
nohup hive --service metastore &
6、啓動 hiverserver2
nohup hive --service hiveserver2 &
7、啓動Yarn history server
mr-jobhistory-daemon.sh start historyserver
8、啓動spark history server【可選】
sbin/start-history-server.sh
7、啓動kylin
./kylin.sh start
7、登錄Kylin
url |
|
默認用戶名 |
ADMIN |
默認密碼 |
KYLIN |
- 用戶名和密碼都必須是大寫