原创 SparkHbase 切分Hfile, 海量數據優化

package cn.jkjf.bigdata.utils.test import cn.jkjf.bigdata.utils.mysql.Global import org.apache.hadoop.conf.Configu

原创 數據結構之隊列的基本操作(Java基礎)

/* * 隊列 */ public class MyCycleQueue { //底層使用數組 private long[] arr; //有效數據的大小 private int elements; //隊頭 priva

原创 數據結構之棧的基本操作(Java基礎)

public class MyStack { //底層實現是一個數組 private long[] arr; private int top; /** * 默認的構造方法 */ public MyStack() {

原创 數據結構之漢諾塔(Java基礎)

public class HanoiTower { /** * 移動盤子 * topN:移動的盤子數 * from:起始塔座 * inter:中間塔座 * to:目標塔座 */ public static

原创 Spark排序算法之二次排序

二次排序具體實現步驟: 按照Ordered和serrializable接口實現自定義排序key 將要進行二次排序的文件假造進來生成<key,value>類型的RDD 使用sortbykey基於自定義的key進行二次排序 去除掉排序的key

原创 淺談數倉

什麼叫數據倉庫? 數據倉庫是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,它用於支持企業或組織的決策分析處理。

原创 Spark聚合操作combineByKey()

park中對鍵值對RDD(pairRDD)基於鍵的聚合函數中,都是通過combineByKey()實現的。 它可以讓用戶返回與輸入數據類型不同的返回值(可以自己配置返回的參數,返回的類型)   首先理解:combineByKey是一個聚合

原创 Spark深入淺出之剖析 Spark Shuffle 原理

Shuffle 一般被翻譯爲數據混洗,是類 MapReduce 分佈式計算框架獨有的機制,也是這類分佈式計算框架最重要的執行機制。本課時主要從兩個層面講解 Shuffle,主要分爲: 邏輯層面、 物理層面。 邏輯層面主要從 RDD 的血統

原创 Scala高階之多線程

Runnable/Callable 入門級區別:Runnable無返回值,Callable線程執行完有返回值。 深入源碼後面會詳解。 Runnable示例 import java.util.concurrent.{Executors,

原创 Java深入淺出之線程池

1、線程池的優勢 (1)、降低系統資源消耗,通過重用已存在的線程,降低線程創建和銷燬造成的消耗; (2)、提高系統響應速度,當有任務到達時,通過複用已存在的線程,無需等待新線程的創建便能立即執行; (3)方便線程併發數的管控。因爲線程若是