原创 Flume+HDFS實戰及遇到的坑

《Flume Source組件實戰—Avro、Spool、Exec(詳細圖文)》一文中,我們介紹了集中不同的Source 組件的使用方式,Source監控取到的數據大多數都是通過LoggerSink輸出Cli端界面上,並沒有將這些數據真正

原创 storm整合hdfs—從hdfs讀取數據(一)

在做這個實驗之前,查看了官方文檔的demo以及【Gpwner的博客】,在他的博客裏找到了很多靈感,感謝前人的無私奉獻。 利用storm從hdfs讀取數據,這個做法很少,就連官網給出的demo也少的可憐,衆人拾柴火焰高,今天小廚也來添一把柴

原创 shell腳本之 大數據集羣一鍵啓動

在日常操作中,我們搭建了很多集羣,例如hadoop、zookeeper、Hbase、kafka、Flume、kylin等,每次啓動以及停止這些進程都很麻煩,例如zookeeper還需要一臺機器一臺機器的登錄然後執行命令,這樣極其不方便。所

原创 kylin使用出現的坑(一)——java.net.UnknownHostException: XXXX;invalid IPv6 address

異常 Kylin在啓動之後報一下錯誤:java.net.UnknownHostException: 192.168.83.131:2181: invalid IPv6 address,具體如下圖所示 這是由於端口號2181在zk con

原创 Kafka實戰及常見問題解決方法

上一篇技術博客講解了kafka基本原理以及kafka分佈式集羣搭建方法,需要這些知識的小夥伴可以查看小廚的《Kafka原理介紹及其分佈式安裝使用》。本篇博客主要內容是一些kafka的常規操作,包括kafka-topic操作、kafka-p

原创 Kylin2.5.0安裝部署及樣例sample.sh

由於Kylin本身只是一個Server,所以安裝部署還是比較簡單的。但是不得不說Kylin對各個協作系統的版本要求還是比較高的。最新官網kylin v2.5版本的要求各個軟件版本爲 OS: Linux only, CentOS 6.5+

原创 Hive操作——刪除表(drop、truncate)

Hive刪除操作主要分爲幾大類:刪除數據(保留表)、刪除庫表、刪除分區。我將以下圖爲例清空iot_devicelocation中的數據,之後再刪除表、庫等。 首先來看一下iot_deivcelocation中的數據。select * f

原创 Hive操作——複製表結構和數據

這篇博文將分享給你如何將hive中B庫的表複製到A庫中。如下圖,將cserver中的表的結構以及數據都複製到xpu中。本篇將分爲兩個部分:複製表結構、複製結構+數據。 一、複製表的結構 寫法:CREATE TABLE A.new_tab

原创 Kylin構建Cube優化

【Kylin 技術貼傾情奉獻——夏天小廚原創】Apache Kylin官宣它的定位是一款千億級OLAP引擎,在其高性能的背後,Cube的構建顯得至關重要。因此優化Cube也成爲數據分析必不可少的技能之一,那爲什麼要優化Cube呢?因爲隨着

原创 kylin—Refresh Setting詳細剖析

問題描述:由於業務場景的需要數據,所以我的數據是從2017-01-01 00:00:00開始的,數據源是kafka。從下圖可以看出,我的Cube分爲三次去build,第一次是0-40595條,第二次是40595-55706條,第三次557

原创 CentOS7 時間與網絡時間同步

在做分佈式集羣開發時,經常會遇見集羣時間節點不一致,從而造成某個節點服務進程啓動失敗或者通信失敗。今天分享一下Centos下如何將本地集羣時間和網絡時間同步,這樣媽媽再也不用擔心我因爲時間不一致而出現的失敗情況。 問題描述:使用date命

原创 Flink常用算子Transformation(轉換)

在之前的《Flink DataStream API》一文中,我們列舉了一些Flink自帶且常用的transformation算子,例如map、flatMap等。在Flink的編程體系中,我們獲取到數據源之後,需要經過一系列的處理即tran

原创 Flink從kafka中讀數據存入Mysql Sink

上篇文章我們描述瞭如何通過繼承RichSourceFunction來實現自定義的Source。本篇中我們將繼續講述如何通過connector讀取源數據,並將讀取的數據存入到其他數據存儲系統中,主要的思路就是Flink作爲消費者來消費Kaf

原创 Flink自定義DataSource之MysqlSource

很久沒更新博客了,最近兩週先後準備了兩個比賽,還好,結果都不錯,繼續加油。迴歸正常的Flink學習之路。 在Flink使用中經常需要自定義DataSource,以滿足實際業務需求。Flink Source原生支持包括Kafka、Rabbi

原创 JDBC操作Hive出現的錯誤

上一篇咱們說到用JDBC去操作Hive,這篇文章主要是將其中由於未添加某個jar包導致的錯誤羅列出來。 基本的錯誤都是沒找到類:java.lang.ClassNotFoundException,只是出現的地方不同而已 一、org/apac