台部落TMH

1. 安裝Ranger 安裝JDK(略) 編譯Ranger(略) 安裝MySQL(略) 創建名爲ranger的數據庫(CREATE USER 'ranger'@'%' IDENTIFIED BY 'ranger';)。創建名

2020-04-24 23:34:51

背景自己構思一個好的項目到github，然後發佈到maven，供別人通過maven進行依賴使用。然後寫點文檔什麼的，就可以到github騙小星星了。實際操作到網站https://issues.sonatype.org/，註

2020-02-21 06:42:51

Hive On Spark 官方教程注意，一般來說hive版本需要與spark版本對應，官網有給出對應版本。這裏使用的hive版本，spark版本，hadoop版本都沒有使用官方推薦。下載Spark 源碼，以spark-2

2020-02-21 06:42:51

MapReduce 二次排序需求：有這樣的一堆數據： 22 12 22 13 22 6 22 17 21 5 28 79 28 63 28 100

2019-10-25 17:59:23

原文鏈接：https://www.cnblogs.com/javaadu/p/11220234.html 本文轉載於https://www.cnblogs.com/javaadu/p/1

2019-10-25 17:59:22

ProtoBuf 原理參考 https://www.jianshu.com/p/419efe983cb2 搭建 IDEA 環境,將proto文件自動編譯成 Java 文件. 新建Maven 工程,POM文件如下: <?xml ve

2019-07-30 18:04:49

先看一個問題 java.io.IOException: Added a key not lexically larger than previous. Current cell = M00000006/info:age/15637

2019-07-30 18:04:48

Spark 內存調優以及 JVM 調優(基於源碼2.2.0分析) 目前Spark使用的內存管理模型有兩個,分別是: StaticMemoryManager UnifiedMemoryManager 而StaticMemoryM

2019-06-10 19:28:25

在 HBase2.0之前使用協處理器 Endpoint 時,使用的方式是實現CoprocessorService,Coprocessor這兩個接口,但是在2.0版本中,這麼做在 hbase regionServer的日誌中顯示 End

2019-05-15 03:21:11

Spark 讀取 csv 時,當 csv 的字段值中有 JSON 串需求:統計 csv 中有 json 串的 key 個數 csv 數據: 代碼: package com.rm1024.scala import com.ali

2019-04-15 17:29:40

Java多線程讀取大文件需求需要將DBF文件解析後存儲到HBase 或者HDFS.起初打算使用Kettle讀取,然後轉存到HBase,小文件還好,一下子就ok來,但是,遇到一個1G大小(測試階段,實際生產遠遠大於1G)的時候,Ke

2019-04-02 17:26:10

Spark 中動態的給Row新增字段我們知道,在Spark中,我們讀取csv或者MySQL等關係型數據庫時,可以直接得到DataFrame.我們要想新增一個字段,可以通過DataFrame的API或者註冊一個臨時表,通過SQL語句能

2019-04-02 17:26:10

Spark使用反射動態的將文本數據映射到樣例類假如現在有一個tsv或者csv文件,文件中每條數據包含100+個字段.使用Spark讀取這個文件.我看有些人的做法是直接創建一個類,然後類的字段一個一個的傳.wdmy.要是有100多個字

2019-04-02 17:26:10

ES簡介: Elasticsearch(通常簡稱爲ES)是一個高度可擴展的開源全文搜索和分析引擎。它允許您快速，近實時地存儲，搜索和分析大量數據。它通常用作底層引擎/技術，爲具有複雜搜索功能和要求的應用程序提供支持,本身擴展性很好，

2019-04-01 23:21:18

SparkConf SparkConf 是Spark的配置類,Spark中的每一個組件都直接或者間接的使用這個類存儲的屬性.SparkConf中,使用ConcurrentHaskMap來存儲這些屬性,其中key以及value都是Str

2019-02-19 06:52:07