原创 Ambari2.7+HDP3.X集成Dolphinscheduler1.3

一、安裝準備二、環境準備1.新建數據庫2.java環境準備三、ambari集成1.軟件包準備2.修改文件3.正式安裝 一、安裝準備 Dolphinscheduler1.3安裝包,詳情可參考 dolphinscheduler在w

原创 dolphinscheduler在window環境下單機編譯+部署

爲了完整演示整個流程,從0開始,排除其它一切干擾,本人特意找了臺新的windows環境,全程無需IDE的參與操作 一、版本信息: dolphinscheduler:1.3.0 maven:3.6.3 jdk:1.8

原创 ambari2.7.4集成hue4.6.0

版本信息 Ambari:2.7.4 HDP:3.1.4 HUE:4.6.0 ambari-hue-service 集成插件:https://github.com/lijufeng2016/ambari-hue-service 本人

原创 提交spark yarn-cluster與yarn-client模式的致命區別

一、組件版本二、提交方式三、運行原理四、分析過程五、致命區別六、總結 一、組件版本 調度系統:DolphinScheduler1.2.1 spark版本:2.3.2 二、提交方式 spark在submit腳本里提交job的時候,

原创 小白也能看懂的源碼分析系列(1)—HADOOP的NameNode啓動過程

小白也能看懂的源碼分析系列(1)—HADOOP的NameNode啓動過程 一、前言 ​ HADOOP作爲大數據的基石,甚至是大數據的代名詞,各種耳熟能詳的框架基於HADOOP生態展開,發展日益迅速,HADOOP生態的

原创 zookeeper在大數據生態的應用

一、簡述二、基本概念1.數據結構2.Znode你應該瞭解的(1)節點類型(2)節點屬性三、基本功能1.文件系統2.集羣管理(1) 節點的加入和退出(2) Master的選舉3.分佈式鎖機制(1) 排他鎖(2) 共享鎖4.監聽與通

原创 Unable to close file because the last block does not have enough number of replicas報錯分析

一、問題 跑spark或hive腳本報錯如下: [INFO] 2020-03-31 11:06:03 -> java.io.IOException: Unable to close file because the last b

原创 orc表導致hiveserver2內存暴漲問題分析

orc表導致hiveserver2內存暴漲問題分析 orc表導致hiveserver2內存暴漲問題分析一、問題描述二、解決過程1.定位起因2.分析sql3.深入分析三、orc文件格式四、問題驗證五、解決方案六、總結分析 一、問題

原创 大數據採坑集-導入數據到hive的換行符問題

問題描述 我們通常在遷移數據到大數據環境中,會使用,sqoop、datax之類的etl工具,從數據庫中遷移到hive或hdfs。數據庫中的原始數據中的文本類數據難免會有特殊字符,比如換行符,會對導入Hive後的數據產生影響。下面是

原创 ambari2.6安裝alluxio2.1.0

ambari2.6安裝alluxio2.1.0 準備的文件: alluxio-2.1.0-bin.tar.gz (自己去下載) ranger-hive-plugin-0.7.0.2.6.5.0-292.jar (如果沒有range

原创 kafka如何保證數據可靠性

一、必須知道的專業名詞 kafka中,每個partition可以有多個副本(Replica),分爲leader、follower,正常情況下,客戶端只向leader發送數據、leader消費數據,follower的出現是爲了保證k

原创 異構數據源導redis不用找了!DataX二次開發插件rediswriter已上菜

rediswriter代碼地址: https://github.com/lijufeng2016/DataX-redis-writer 合併後DataX完整代碼地址: https://github.com/lijufeng2016

原创 hive中文漢字亂碼終極解決辦法

一、問題 在創建hive表時,comment要加中文註釋,比如: drop table if exists users; create table users( name string comment '姓名', age int

原创 基於DolphinScheduler提交spark yarn-cluster與yarn-client模式的致命區別

一、組件版本二、提交方式三、運行原理四、分析過程五、致命區別六、總結 一、組件版本 調度系統:DolphinScheduler1.2.1 spark版本:2.3.2 二、提交方式 spark在submit腳本里提交job的時候,

原创 自動化HDFS數據清理的終極方法(附代碼)

一、背景二、原理fsimage:hive元數據三、使用方法本地idea運行:step1:準備工作step2:解析fsimage文件step3:清理數據yarn運行:step1:準備工作step2:解析fsimage文件step3