原创 通過JDBC連接Hive

使用JDBC去操作hive可能是程序員們比較喜歡的一種方式,今天來總結一下使用java api來對hive進行增刪查改,這裏我主要演示對hive表中數據的操作,不創建表已經改變表原有的結構。本文基於hive已經能正常使用的情況。 首先hi

原创 Flink DataStream API

實時分析是當前一個比較熱門的數據處理技術,因爲許多不同領域的數據都需要進行實時處理、計算。到目前爲止,有很多技術提供實時的解決方案,包括Storm、Spark Streaming等。這些需求源自於物聯網的應用程序需要存儲、處理和實時或近實

原创 HBase Master is initializing的錯誤可能

 今天,在啓動kylin時,報Failed to find metadata storeby url: kylin_metadata@hbase,確認這肯定是hbase的錯誤導致kylin無法正常啓動,於是進入hbase shell,輸入

原创 Flink on Yarn的兩種模式及HA

Flink on Yarn模式部署始末:Flink的Standalone和on Yarn模式都屬於集羣運行模式,但是有很大的不同,在實際環境中,使用Flink on Yarn模式者居多。那麼使用on yarn模式到底好在哪呢?首先,在集羣

原创 Kafka+kylin——kylin2.5.0流式構建

《一份詳細的Kylin執行樣例——基於kylin2.5.0》一文中,小廚介紹瞭如何使用kylin,今天開闢一個新路線,個人感覺隨着時代的發展,數據實時分析會成爲主力軍,因爲今天介紹一下Kafka+kylin,流式構建cube。kylin是

原创 shell腳本啓動zookeeper等集羣相關組件

在日常操作中,我們搭建了很多集羣,例如hadoop、zookeeper、Hbase、kafka、Flume、kylin等,每次啓動以及停止這些進程都很麻煩,例如zookeeper還需要一臺機器一臺機器的登錄然後執行命令,這樣極其不方便。所

原创 Kafka之Producer API使用【java版本】

前段時間需要配合kylin的流式計算,所以用java寫了一個producer的程序,每秒向topic中產生數據,kylin則作爲Topic的Consumer。主要的功能就是隨機產生一些數據,這個程序裏面主要的點個人認爲是:時間戳的隨機生成

原创 Flink1.7.2安裝部署的幾種方式

前言:Flink的運行一般分爲三種模式,即local、Standalone、On Yarn。 在安裝Flink之前,需要對安裝環境進行檢查。本文是建立在Hadoop、Zookeeper等常規大數據軟件都已經安裝成功的前體下,由於在時間環境

原创 Apache Flink簡介

Flink作爲實時流處理界的新秀,以其優越的性能被越來越多的公司使用。 1、Flink簡介 Apache Flink是新一代的大數據處理引擎,目標是統一不同來源的數據處理。同時,Flink也是一個面向分佈式數據流處理和批量數據處理的開源計

原创 一份詳細的Kylin執行樣例——基於kylin2.5.0

在《Kylin2.5.0安裝部署及樣例sample.sh》一文中,我們搭建了kylin2.5.0版本的運行環境,並且簡單演示了一下官方的Sample Cube的示例,這樣從宏觀上對kylin的運行流程有了一個整體的認識。那麼,這篇文章我們

原创 kylin使用出現的坑(二)——FileNotFoundException:../capacity-scheduler/*.jar(沒有文件或目錄)

在安裝完畢之後,登錄WebUI即master:7070/kylin。界面報拒絕連接,於是去查日誌,因爲此時kylin還沒有真正運行起來,所以/kylin/logs目錄下根本沒有有用的目錄,如下圖: 想起來kylin是依靠Tomcat運行

原创 kylin1.5.2安裝部署及測試用例

【kylin詳細部署使用文檔】  之前部署了一套kylin2.1.0版本,在進入web界面之後,出現了無法創建cube等一系列錯誤,於是根據版本要求,小廚將kylin的安裝版本設置成了1.5.2,在三臺虛機上重新部署一套單節點的kylin

原创 Kylin2.1.0安裝部署

由於Kylin本身只是一個Server,所以安裝部署還是比較簡單的。但是不得不說Kylin對各個協作系統的版本要求還是比較高的。最新官網kylin v2.5版本的要求各個軟件版本爲 OS: Linux only, CentOS 6.5+

原创 kylin安裝出現的坑

異常 Kylin在啓動之後報一下錯誤:java.net.UnknownHostException: 192.168.83.131:2181: invalid IPv6 address,具體如下圖所示 這是由於端口號2181在zk con

原创 Flume+Kafka整合案例實現

  一、爲什麼要集成Flume和Kafka 我們很多人在在使用Flume和kafka時,都會問一句爲什麼要將Flume和Kafka集成?那首先就應該明白業務需求,一般使用Flume+Kafka架構都是希望完成實時流式的日誌處理,後面再連接