台部落喜剧之皇

原创 Ambari2.7+HDP3.X集成Dolphinscheduler1.3

一、安裝準備二、環境準備1.新建數據庫2.java環境準備三、ambari集成1.軟件包準備2.修改文件3.正式安裝一、安裝準備 Dolphinscheduler1.3安裝包，詳情可參考 dolphinscheduler在w

2020-06-27 21:33:31

19

原创 dolphinscheduler在window環境下單機編譯+部署

爲了完整演示整個流程，從0開始，排除其它一切干擾，本人特意找了臺新的windows環境，全程無需IDE的參與操作一、版本信息： dolphinscheduler：1.3.0 maven：3.6.3 jdk：1.8

2020-06-25 10:57:42

22

原创 ambari2.7.4集成hue4.6.0

版本信息 Ambari：2.7.4 HDP：3.1.4 HUE：4.6.0 ambari-hue-service 集成插件：https://github.com/lijufeng2016/ambari-hue-service 本人

2020-06-12 17:22:23

11

原创提交spark yarn-cluster與yarn-client模式的致命區別

一、組件版本二、提交方式三、運行原理四、分析過程五、致命區別六、總結一、組件版本調度系統：DolphinScheduler1.2.1 spark版本：2.3.2 二、提交方式 spark在submit腳本里提交job的時候，

2020-06-12 17:22:23

119

原创小白也能看懂的源碼分析系列(1)—HADOOP的NameNode啓動過程

小白也能看懂的源碼分析系列(1)—HADOOP的NameNode啓動過程一、前言 HADOOP作爲大數據的基石，甚至是大數據的代名詞，各種耳熟能詳的框架基於HADOOP生態展開，發展日益迅速，HADOOP生態的

2020-06-12 17:22:23

原创 zookeeper在大數據生態的應用

一、簡述二、基本概念1.數據結構2.Znode你應該瞭解的（1）節點類型（2）節點屬性三、基本功能1.文件系統2.集羣管理(1) 節點的加入和退出(2) Master的選舉3.分佈式鎖機制(1) 排他鎖(2) 共享鎖4.監聽與通

2020-06-12 17:22:23

原创 Unable to close file because the last block does not have enough number of replicas報錯分析

一、問題跑spark或hive腳本報錯如下： [INFO] 2020-03-31 11:06:03 -> java.io.IOException: Unable to close file because the last b

2020-06-12 17:22:23

39

原创 orc表導致hiveserver2內存暴漲問題分析

orc表導致hiveserver2內存暴漲問題分析 orc表導致hiveserver2內存暴漲問題分析一、問題描述二、解決過程1.定位起因2.分析sql3.深入分析三、orc文件格式四、問題驗證五、解決方案六、總結分析一、問題

2020-06-12 17:22:23

6

原创大數據採坑集-導入數據到hive的換行符問題

問題描述我們通常在遷移數據到大數據環境中，會使用，sqoop、datax之類的etl工具，從數據庫中遷移到hive或hdfs。數據庫中的原始數據中的文本類數據難免會有特殊字符，比如換行符，會對導入Hive後的數據產生影響。下面是

2020-06-12 17:22:23

1

原创 ambari2.6安裝alluxio2.1.0

ambari2.6安裝alluxio2.1.0 準備的文件： alluxio-2.1.0-bin.tar.gz (自己去下載) ranger-hive-plugin-0.7.0.2.6.5.0-292.jar （如果沒有range

2020-06-12 17:22:23

20

原创 kafka如何保證數據可靠性

一、必須知道的專業名詞 kafka中，每個partition可以有多個副本(Replica)，分爲leader、follower，正常情況下，客戶端只向leader發送數據、leader消費數據，follower的出現是爲了保證k

2020-05-26 12:02:08

1

原创異構數據源導redis不用找了!DataX二次開發插件rediswriter已上菜

rediswriter代碼地址： https://github.com/lijufeng2016/DataX-redis-writer 合併後DataX完整代碼地址： https://github.com/lijufeng2016

2020-05-24 15:24:24

4

原创 hive中文漢字亂碼終極解決辦法

一、問題在創建hive表時，comment要加中文註釋，比如： drop table if exists users; create table users( name string comment '姓名', age int

2020-05-17 15:28:39

1

原创基於DolphinScheduler提交spark yarn-cluster與yarn-client模式的致命區別

一、組件版本二、提交方式三、運行原理四、分析過程五、致命區別六、總結一、組件版本調度系統：DolphinScheduler1.2.1 spark版本：2.3.2 二、提交方式 spark在submit腳本里提交job的時候，

2020-05-17 15:28:39

42

原创自動化HDFS數據清理的終極方法（附代碼）

一、背景二、原理fsimage：hive元數據三、使用方法本地idea運行：step1：準備工作step2:解析fsimage文件step3:清理數據yarn運行：step1：準備工作step2:解析fsimage文件step3

2020-04-25 21:51:34