台部落wangxiaojing123

使用spark-shell 通過groupByKey方法將行專列。一、需求在HDFS或本地目錄有一份text格式數據(數據內容爲英文逗號分隔，字段內容爲uid,value,key），現在要求將這些數據按照uid分組，最後保

2020-03-24 07:44:29

一、Clickhouse定義 Clickhouse是一個列式數據庫，通常適合OLAP場景二、適合Clickhouse的場景或一般的OLAP場景絕大多數的請求都是讀請求；數據更新適合大批量，比如一次更新1000條以上，

2020-03-17 18:29:07

Extract Fact Table Distinct Columns job 進行統計估算和字典編碼、範圍計算，具體主要做3件事情：1、HLL估算統計每個cuboid的結果條數；2、所有非Derived維度列的範圍（min-m

2020-02-22 10:23:58

在配置Kylin RealTime 數據源時，需要指定一個時間列，這個列默認需要是timestamp類型，實際上Kylin也支持設置爲自定義格式，如yyyy-MM-dd HH:mm:ss格式。本文將分別介紹timestamp格式

2020-02-22 10:23:58

此篇文章 https://www.iteye.com/blog/7sunet-285007 對 runtime.totalMemory()、runtime.freeMemory()、runtime.maxMemory()講的通俗易

2020-02-22 10:23:58

本文將通過頁面操作入口和程序代碼進行reassign流程分析。reassign的大致流程爲頁面操作觸發coordinator調用相應的receiver進行處理：reassign分爲3個部分，preAssignment(只存在與之

2019-10-26 00:22:03

一、新建cube第一次消費的情況：此種情況根據kylin.stream.consume.offsets.latest配置，true表示從最新的數據開始消費，false表示從最早的數據開始消費，默認爲true. 二、Disable

2019-10-26 00:21:42

ACTIVE—— IMMUTABLE ——REMOTE_PERSISTED——Ready 一、Active 每個segment創建的時候初始爲Active狀態，只有active狀態的segment可以消費數據，由kylin re

2019-10-26 00:21:42

Background: We have some Kylin clusters (Kylin 2.0 HBase 0.98) must restart all Kylin nodes after HBase delete no

2019-07-31 00:26:48

背景：目前當HBase添加、刪除節點、重啓、移動rgroup或者hbase table移動region server等操作後，均需要Kylin的所有節點重啓，理論上這些操作可以對上層應用透明或者只有短暫的不可用後自行恢復。但是目

2019-07-31 00:26:37

由於Kylin的本身架構（廣播特性）和業務特點通常不適用於單套Kylin集羣的節點過多，通常大家採用拆分Kylin集羣但是共用底層的Hbase集羣和計算集羣的方式進行部署。本文主要根據目前咱們的實踐經驗對於此種場景集羣配置進行分

2019-07-31 00:26:37

Kylin master 分支 2019-04月到06月新的功能和bug fix列表 https://github.com/apache/kylin 一、Feature Calculate column cardinalit

2019-06-26 02:01:53

Kylin的廣播機制在整個Kylin集羣中作用非常重大，各個節點之間的數據同步均是通過廣播機制進行。 1、Project/Model/Cube的元數據信息變化，由Broadcaster通過api的形式廣播通知其他節點； 2、bu

2019-06-11 03:48:31

使用Spark sortBy進行排序，使用zipWithIndex進行行號添加通常可用於甲酸count或添加索引或計算當前值是第幾大等用途 Case1 :全局排序，輸出原始值和對應的行號索引啓動spark-shell並使用y

2019-06-11 03:48:31

有原來的一個一個字節讀取，變成放到緩衝流（可配置字節數）進行批量操作，這樣和底層的硬盤操作頻率變少，效率提高。”從應用的角度，任何減少磁盤活動的策略都有幫助，例如使用帶緩存的輸入、輸出流以減少讀、寫操作次數用以減少磁盤交互。“

2019-05-15 03:10:04