原创 spark groupByKey 循環數組 行轉列

使用spark-shell 通過groupByKey方法將行專列。 一、需求 在HDFS或本地目錄有一份text格式數據(數據內容爲英文逗號分隔,字段內容爲uid,value,key),現在要求將這些數據按照uid分組,最後保

原创 Clickhouse簡介

一、Clickhouse定義 Clickhouse是一個列式數據庫,通常適合OLAP場景 二、適合Clickhouse的場景或一般的OLAP場景 絕大多數的請求都是讀請求; 數據更新適合大批量,比如一次更新1000條以上,

原创 Extract Fact Table Distinct Columns(MR) 流程和源碼解析

Extract Fact Table Distinct Columns job 進行統計估算和字典編碼、範圍計算,具體主要做3件事情:1、HLL估算統計每個cuboid的結果條數;2、所有非Derived維度列的範圍(min-m

原创 Kylin RealTime OLAP 如何配置自定義格式的時間列

在配置Kylin RealTime 數據源時,需要指定一個時間列,這個列默認需要是timestamp類型,實際上Kylin也支持設置爲自定義格式,如yyyy-MM-dd HH:mm:ss格式。本文將分別介紹timestamp格式

原创 java內存使用情況

此篇文章 https://www.iteye.com/blog/7sunet-285007 對 runtime.totalMemory()、runtime.freeMemory()、runtime.maxMemory()講的通俗易

原创 Kylin RT OLAP reassign流程即重新分配replica_set 流程

本文將通過頁面操作入口和程序代碼進行reassign流程分析。reassign的大致流程爲頁面操作觸發coordinator調用相應的receiver進行處理:reassign分爲3個部分,preAssignment(只存在與之

原创 Kylin 實時OLAP如何做CheckPoint

一、新建cube第一次消費的情況: 此種情況根據kylin.stream.consume.offsets.latest配置,true表示從最新的數據開始消費,false表示從最早的數據開始消費,默認爲true. 二、Disable

原创 Kylin實時OLAP(RT OLAP) segment狀態變化流程

ACTIVE—— IMMUTABLE ——REMOTE_PERSISTED——Ready 一、Active 每個segment創建的時候初始爲Active狀態,只有active狀態的segment可以消費數據,由kylin re

原创 HBase change causes Kylin restart problem (Kylin 2.0 HBase 0.98)

Background: We have some Kylin clusters (Kylin 2.0 HBase 0.98) must restart all Kylin nodes after HBase delete no

原创 Kylin2.0-Hbase0.98重啓問題

背景:目前當HBase添加、刪除節點、重啓、移動rgroup或者hbase table移動region server等操作後,均需要Kylin的所有節點重啓,理論上這些操作可以對上層應用透明或者只有短暫的不可用後自行恢復。但是目

原创 多套Kylin集羣共享Hbase和Hadoop計算集羣關鍵配置最佳實踐

由於Kylin的本身架構(廣播特性)和業務特點通常不適用於單套Kylin集羣的節點過多,通常大家採用拆分Kylin集羣但是共用底層的Hbase集羣和計算集羣的方式進行部署。本文主要根據目前咱們的實踐經驗對於此種場景集羣配置進行分

原创 Kylin 社區master動向 20190625

Kylin master 分支 2019-04月到06月新的功能和bug fix列表 https://github.com/apache/kylin 一、Feature Calculate column cardinalit

原创 Kylin 廣播機制流程、源碼分析——Broadcaster

Kylin的廣播機制在整個Kylin集羣中作用非常重大,各個節點之間的數據同步均是通過廣播機制進行。 1、Project/Model/Cube的元數據信息變化,由Broadcaster通過api的形式廣播通知其他節點; 2、bu

原创 spark 排序並添加編號添加行號和初始值

使用Spark sortBy進行排序,使用zipWithIndex進行行號添加通常可用於甲酸count或添加索引或計算當前值是第幾大等用途 Case1 :全局排序,輸出原始值和對應的行號索引 啓動spark-shell並使用y

原创 java io 緩衝流的作用

有原來的一個一個字節讀取,變成放到緩衝流(可配置字節數)進行批量操作,這樣和底層的硬盤操作頻率變少,效率提高。”從應用的角度,任何減少磁盤活動的策略都有幫助,例如使用帶緩存的輸入、輸出流以減少讀、寫操作次數用以減少磁盤交互。“