原创 storm 批處理以及TickTuple窗口

一、Storm Storm是一個實時的可靠地分佈式流計算框架。一個典型的大數據實時計算應用場景:從Kafka消息隊列讀取消息(可以是logs,clicks,sensor data);通過Storm對消息進行計算聚合等預處理;把處理

原创 storm 微批處理高級API Trident

storm Trident 概述 1.1. Apply Locally本地操作:操作都應用在本地節點的Batch上,不會產生網絡傳輸 1.2. Functions:函數操作 1.3. Filters:過濾操作 1.4. Part

原创 hadoop client 本地開發調試客戶端搭建

hadoop client 本地開發調試客戶端搭建 在實際的開發環境中,在集羣環境中開發往往存在很多安全隱患,例如集羣文件被誤刪等等,所以一般的開發工作都是本地完成開發的。本地做MR開發時,由於沒有hadoop環境,所以調試工作往

原创 flink table api 自定義數據格式解析

       flink table api目前支持的數據格式(https://ci.apache.org/projects/flink/flink-docs-release-1.7/dev/table/tableApi.html

原创 Apache Kylin優化篇之聯合維度(Joint Dimension)

       kylin作爲OLAP查詢最好的工具之一,但在kylin構建維度時,會生成很多不必要的維度cube,造成維度爆炸,佔用大量的存儲空間,爲了緩解 Cube 的構建壓力,減少生成的 Cuboid 數目,Apache Kyli

原创 flink table api 自定義數據格式解析(binlog 篇)

       flink table api目前支持的數據格式(https://ci.apache.org/projects/flink/flink-docs-release-1.7/dev/table/tableApi.html )

原创 hbase rowkey 設計

一、查詢最左匹配原則        假設查詢包含3個維度:uid,city,age, 將rowkey的格式爲: uid_city_age 則以下維度的查詢都會比較高效 通過uid查詢 通過uid+city查詢 通過uid、city和

原创 storm 高級API Trident

storm Trident 概述 1.1. Apply Locally本地操作:操作都應用在本地節點的Batch上,不會產生網絡傳輸 1.2. Functions:函數操作 1.3. Filters:過濾操作 1.4. Pa

原创 storm 批處理(窗口)

一、Storm Storm是一個實時的可靠地分佈式流計算框架。一個典型的大數據實時計算應用場景:從Kafka消息隊列讀取消息(可以是logs,clicks,sensor data);通過Storm對消息進行計算聚合等預處理;把處

原创 [解決]java.io.IOException: Cannot obtain block length for LocatedBlock

在hadoop測試集羣運行job的過程中發現部分運行失敗,有Cannot obtain block length for LocatedBlock,使用hdfs dfs -cat ${文件}的時候也報這個錯,看過代碼後發現是文件未被正常關

原创 hadoop client 客戶端模式搭建

hadoop client 本地開發調試客戶端搭建 在實際的開發環境中,在集羣環境中開發往往存在很多安全隱患,例如集羣文件被誤刪等等,所以一般的開發工作都是本地完成開發的。本地做MR開發時,由於沒有hadoop環境,所以調試工作往往變的很

原创 CarbonData 使用性能測試

carbondata 格式數據和Text 格式數據性能測試對比: 在數據量極少的情況下,Text的速度快於carbondata(數據量原因) 在數據兩增加的情況下,carbondata的查詢性能有明顯的提升(3~7倍不等),具體情況見

原创 carbondata 介紹

1、爲什麼要使用carbondata? CarbonData支持完整的標準SQL支持,以及多種分析場景的支持,“一份數據支持多種使用場景”,例如大規模掃描和計算的批處理場景,OLAP多維交互式分析場景,明細數據即席查詢,主鍵低時延點查,

原创 docker 安裝 problem making ssl connection

docker 安裝 [Errno 14] problem making ssl connection 最近在安裝docker的時候,向centos的yum 倉庫中添加docker的倉庫地址時,報了problem making ssl

原创 eclipse 集成maven及maven的使用(入門級教程,高手略過)

eclipse集成maven及maven使用教程 網上看了很多eclipse 和maven集成的教程,對於懂maven的人來說一眼都能看懂,但對於新手來說還是有困難,說以些了這篇教程分享一下(我也是新學的,高手看到歡迎指點不足) 1、打開