原创 kerberos + Ranger 實現對Kafka的認證以及權限管理

1. 安裝Ranger 安裝JDK(略) 編譯Ranger(略) 安裝MySQL(略) 創建名爲ranger的數據庫(CREATE USER 'ranger'@'%' IDENTIFIED BY 'ranger';)。 創建名

原创 發佈開源項目至maven中央倉庫,內附打scala源碼包,scala doc 包的教程。

背景 自己構思一個好的項目到github,然後發佈到maven,供別人通過maven進行依賴使用。然後寫點文檔什麼的,就可以到github騙小星星了。 實際操作 到網站https://issues.sonatype.org/,註

原创 Hive on Spark 搭建過程(hvie-2.3.6 spark-2.4.4 hadoop-2.8.5)

Hive On Spark 官方教程 注意,一般來說hive版本需要與spark版本對應,官網有給出對應版本。這裏使用的hive版本,spark版本,hadoop版本都沒有使用官方推薦。 下載Spark 源碼,以spark-2

原创 MapReduce 二次排序

MapReduce 二次排序 需求: 有這樣的一堆數據: 22 12 22 13 22 6 22 17 21 5 28 79 28 63 28 100

原创 深入理解G1GC日誌

原文鏈接:https://www.cnblogs.com/javaadu/p/11220234.html 本文轉載於https://www.cnblogs.com/javaadu/p/1

原创 protobuf原理以及在 Idea 中 Java 的用法示例

ProtoBuf 原理參考 https://www.jianshu.com/p/419efe983cb2 搭建 IDEA 環境,將proto文件自動編譯成 Java 文件. 新建Maven 工程,POM文件如下: <?xml ve

原创 Spark生成HBase 的 HFile 文件,並使用BulkLoad 方式將 HFile 文件加載到對應的表中

先看一個問題 java.io.IOException: Added a key not lexically larger than previous. Current cell = M00000006/info:age/15637

原创 Spark 內存調優以及 JVM 調優

Spark 內存調優以及 JVM 調優(基於源碼2.2.0分析) 目前Spark使用的內存管理模型有兩個,分別是: StaticMemoryManager UnifiedMemoryManager 而StaticMemoryM

原创 HBase 2.0版本協處理器 Endpoint使用

在 HBase2.0之前使用協處理器 Endpoint 時,使用的方式是實現CoprocessorService,Coprocessor這兩個接口,但是在2.0版本中,這麼做在 hbase regionServer的日誌中顯示 End

原创 Spark 讀取 csv 時,當 csv 的字段值中有 JSON 串

Spark 讀取 csv 時,當 csv 的字段值中有 JSON 串 需求:統計 csv 中 有 json 串的 key 個數 csv 數據: 代碼: package com.rm1024.scala import com.ali

原创 多線程讀取DBF文件

Java多線程讀取大文件 需求 需要將DBF文件解析後存儲到HBase 或者HDFS.起初打算使用Kettle讀取,然後轉存到HBase,小文件還好,一下子就ok來,但是,遇到一個1G大小(測試階段,實際生產遠遠大於1G)的時候,Ke

原创 Spark中給RDD[Row]中的Row動態增加一個或者多個字段

Spark 中動態的給Row新增字段 我們知道,在Spark中,我們讀取csv或者MySQL等關係型數據庫時,可以直接得到DataFrame.我們要想新增一個字段,可以通過DataFrame的API或者註冊一個臨時表,通過SQL語句能

原创 Spark使用反射動態的將文本數據映射到樣例類

Spark使用反射動態的將文本數據映射到樣例類 假如現在有一個tsv或者csv文件,文件中每條數據包含100+個字段.使用Spark讀取這個文件.我看有些人的做法是直接創建一個類,然後類的字段一個一個的傳.wdmy.要是有100多個字

原创 ES6.7以及Kibana的安裝.

ES簡介: Elasticsearch(通常簡稱爲ES)是一個高度可擴展的開源全文搜索和分析引擎。它允許您快速,近實時地存儲,搜索和分析大量數據。它通常用作底層引擎/技術,爲具有複雜搜索功能和要求的應用程序提供支持,本身擴展性很好,

原创 讀《Spark內核設計的藝術 架構設計與實現》筆記之三----SparkConf & 內置的RPC框架

SparkConf SparkConf 是Spark的配置類,Spark中的每一個組件都直接或者間接的使用這個類存儲的屬性.SparkConf中,使用ConcurrentHaskMap來存儲這些屬性,其中key以及value都是Str