原创 Kafka安裝配置及簡單通道傳輸操作(kafka2.9.2)

一、kafka安裝(kafka_2.9.2-0.8.1.1.zip) 1、下載並解壓安裝包 tar -xvf kafka_2.9.2-0.8.1.1.tgz 或者 unzip kafka_2.9.2-0.8.1.1.zip

原创 Android-記錄ListView的位置,讓ListView下次直接滾動到記錄的位置

有時在view切換時,需要恢復listView之前滾動到的位置,記錄一下自己覺得比較好用的一種方法 記錄listView滾動到的位置的座標 //當前可見的List頂端的一行的位置 private int scrollPos = 0;

原创 Flink程序經過reduce聚合後不輸出sink的問題

Flink程序經過reduce聚合後不輸出sink的問題 一、最近提交的一版flink流式計算程序,經過EventTimeSessionWindows後進行了reduce聚合,完成計算完成後遲遲不sink輸出結果。 記錄下踩過的坑

原创 Kubernetes日誌收集:log-pilot+KAFKA+Logstash+ES

通過log-pilot+KAFKA+Logstash+ES收集K8S中Pod日誌 K8S部署應用後收集日誌不太好搞,特別是單個服務多個實例的情況。 如果映射到外部地址,多個實例就會寫到同一個文件中,無法區分是哪個應用實例的日誌。

原创 通過Hive外部表遷移Kudu數據表

通過Hive外部表遷移Kudu數據表 由於數據量越來越大,服務器難以支撐所以遷移到雲上,記錄下遷移kudu表的過程 1、導出數據爲csv文件: `impala-shell -q "select * from vs_kudu_xxx_d

原创 CentOS6安裝搭建Cloudera Manager 5和CDH5(版本5.13.3)大數據集羣

系統環境: 四臺虛擬主機 操作系統:CentOS 6(8核,16G,512G硬盤) Cloudera Manager:5.13.3 CDH: 5.13.3 192.168.1.xx bigdata1 192.168.

原创 Kafka指定patition消費

As everyone knows the kafka producer can send message to specific patition: producer.send(new ProducerRecord<String, St

原创 Hive1.2.1本地、遠程模式安裝配置及常見錯誤

一、運行環境 CentOS 6.5 64位 正確安裝配置jdk 正確安裝配置hadoop 正確安裝mysql 二、所需軟件 apache-hive-1.2.1-bin.tar.gz (下載地址:apache-hive-1.2.

原创 流式處理新玩法,Esper和Storm的聯合統計分析

一、首先是一個開源項目(storm-ester): https://github.com/tomdz/storm-esper 二、導入工程項目 自帶的TwitterEsperSample.java例子好像不太好用,反正運行着沒什麼效果

原创 Hadoop分佈式集羣環境搭建(三節點)

一、安裝準備 創建hadoop賬號 更改ip 安裝Java 更改/etc/profile 配置環境變量 export $JAVA_HOME=/usr/java/jdk1.7.0_71 修改host文件域名 172.16.133.149

原创 六臺Debian主機安裝搭建Cloudera Manager 5和CDH5(版本5.9.0)大數據集羣

系統環境: 六臺虛擬主機 操作系統:Debian 7(8核,32G,512G硬盤) Cloudera Manager:5.9.0 CDH: 5.9.0 192.168.0.xx cdh1 192.168.0.xx cdh2 1

原创 使用MapReduce解析HDFS中的文件生成HFile文件導入HBase(三)

使用MapReduce生成HFile文件是導入大量數據到HBase的最快方法 總共分爲兩部分,生成HFile和導入到HBase 一、生成HFile 1.主程序ConvertToHFiles.java public class Conve

原创 通過Flume拉取Kafka數據保存到ES

Flume官方文檔上寫的配置寫法適用於es版本<2.0 我用的是flume1.6和ES2.2版本,會報錯 解決方案: Flume-NG Sink for Elasticsarch >= 2.0: https://github.com

原创 通過MapReduce把Hive表數據導入到HBase

由於Hive查詢速度比較慢,進行了表分區使用Impala也是很滿意,所以爲了公司業務展示,需要測試使用HBase的查詢速度怎麼樣,頭一件事就是把HIVE的數據導入到HBase中,搜了半天也沒搜到到底該怎麼搞,也有說能用Sqoop的,可是沒

原创 淺談HBase系統架構

一、HBase基本架構和核心功能模塊 Client: 客戶端Client是HBase系統的入口,使用者直接通過客戶端操作HBase; Client使用HBase的RPC機制與HMaster和RegionServer進行通信,對HBas