原创 Apache Kylin 高基數維度處理 以及 其他優化

kylin的查詢的時候,如果查詢的維度在同一個聚合組,kylin會直接去HBase取到預計算的值,如過查詢的維度不在同一個維度組,kylin會根據進行實時計算,這個過程類似build過程中的計算,並且會在monitor上使用slo

原创 sqoop更新導入總結,從hive到mysql

首先語句上很簡單, sqoop export \ --connect jdbc:mysql://192.0.0.1:13308/test?characterEncoding=UTF-8 \ --username cxk \ --

原创 最長公共子序列-LeetCode1143圖解

題目: 給定兩個字符串 text1 和 text2,返回這兩個字符串的最長公共子序列。 一個字符串的 子序列 是指這樣一個新的字符串:它是由原字符串在不改變字符的相對順序的情況下刪除某些字符(也可以不刪除任何字符)後組成的新字符串

原创 RDD使用map函數返回多行的解決辦法,scala語言

map函數通常爲1行數據處理得到1行數據,有時候需要rdd中的一條數據經過處理後可能需要返回一行以上的數據,有一種比較妥協的解決辦法: 平時rdd的map函數返回的是一個tuple,也就是一行數據,現在可以將返回的類型設置爲含有多

原创 使用api查詢Kylin數據

使用的環境是python3.6 1、安裝pip必要包 pip install kylinpy pip install sqlalchemy 2、 查詢代碼: import sqlalchemy as sa def kylin_q

原创 Superset 在linux( centOS 6\7 )下安裝

一、安裝python3.6 ( 據說python3.4以上就可以 ) 參考:https://blog.csdn.net/EnterPine/article/details/81913206 二、創建虛擬環境: yum instal

原创 Spark中RDD複雜算子 aggregate()、combineByKeyWithClassTag()與aggregateByKey()

1、aggregate() 方法聲明: def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U = withScop

原创 POJ 2418 Hardwood Species (map練習)

題目大意:輸入一組單詞,按字典順序輸出每個單詞以及它在所有單詞中出現次數的百分比。 解法:使用map。map<string,int> 以單詞爲key建立map,內容爲該單詞出現的次數。 代碼: #include<iostream> #i

原创 POJ 3367 Expression(建立二叉樹)

題目大意:大寫字母會作爲其前兩個字母的父節點,並替換前兩個字符,最終建立二叉樹。輸出時按照從底層到高層,從左子節點到右子節點。 解題方法:用stack建立二叉樹,然後用queue排列輸出順序。 代碼: #include<cstdio>

原创 dfs,bfs 找到了一個比較容易理解他們的ppt

ppt來自百度文庫:http://wenku.baidu.com/view/97c9220452ea551810a687e4.html?re=view ppt用走迷宮解釋了DFS 和 PFS 的算法,比較好理解。 點贊

原创 把整數分解爲它的質因子以及質因子的冪次

功能:把N分解成 N=X^a+Y^b+Z^c      X,Y,Z時N的質因子       輸入:N       輸出:X a                Y b                Z c 代碼:   #include<c

原创 Hadoop中Writable類筆記

Writable接口: 包名:org.apache.hadoop.io 方法:write(DataOutput var1) 用於序列化對象 方法:readFields(DataInput var1) 用於反序列化對象

原创 Hadoop中MapReduce的自定義分區、排序、分組

分區: 在MR的job中,默認使用的分區類爲:HashPartitioner.class 其源代碼爲: public class HashPartitioner<K, V> extends Partitioner<K, V> {

原创 Java多線程基礎

Java實現多線程所有方法都要通過Tread類實現,Thread類中的Start0()方法使用JNI(Java Native Interface)來和操作系統交互,進行線程計算。 有三種方法實現Java多線程編程: 繼承Thre

原创 Impala中添加udf總結

在hive中添加udf較爲簡單,沒遇到什麼麻煩,但是在impala中添加udf有時候會報錯,找不到類,class not found等。 一、class not found解決辦法: 將所缺類的jar包放到impala的lib目錄