原创 CDH 6.1安裝過程

目錄 一、JDK 二、配置鏡像文件 三、上傳數據庫上傳 mysql-5.6.39-linux-glibc2.12-x86_64.tar 到 /usr/local/ 四、安裝Mysql 五、安裝所有節點:yum clean allyum m

原创 基於監聽hdfs文件實現Sparkstreaming優雅關閉

前提:            Yarn的Kill和發送信號,Oozie,不是優雅關閉,CDH的關閉是優雅關閉,現在打算棄用CDH,所以基於代碼實現監聽外部文件系統實現優雅關閉。 一、 1.實現代碼 val hdfsStopPat

原创 Spark的基本概念

前文:              一、Spark概念 1、Spark概念 2、對比MapReduce的計算:運算速度快上100倍 二、結構及資源調度 1、Spark集羣的結構 2、資源調度流程 備註: 3、提交Job執行流程

原创 HiveSql基本操作+函數(字符串、時間、分析)

前文:           Hive把結構化數據轉換成表進行sql操作,底層爲MapReduce操作,掌握好Hql語句,將大大提升我們的數據處理能力。 一、基本操作 1、庫 2、表 3、導入數據 4、導出數據 5、外部表 6、分

原创 大量數據的排序

前文:            主要爲一些數據排序的思路。 一、Top k問題 1、最大的1000個數字 2、某日訪問次數最多的那個 IP

原创 貼一個基於HDP3.1版本的大數據pom.xml

前文:                才疏學淺,這個依賴耗費了一段,中間一直缺包,仔細排查多個主流maven倉庫,確實發現maven倉庫只有主流的依賴包,還有不少依賴包是查詢不到的。解決方法:在pom.xml中添加查詢到的依賴所在的倉庫即

原创 Hadoop中Yarn的引入及MapReduce

前文:           MapReduce作爲分佈式計算框架,用於計算海量數據。 一、Yarn的概念 目的:將執行MR任務中資源管理和作業調度分離。 1、Yarn 2、Yarn的架構節點 3、Yarn執行MR 二、不同版本MR執

原创 Shell腳本的使用(積累ing)

前文:           Shell腳本可提高工作執行效率,本質上爲一堆命令的集合。 一、字符串處理 #部分代碼案例展示 log_index=$(cat $log_txt) #最新記錄 #echo $log_index

原创 HiveSql優化及思路、函數

前文:   一、HiveSql優化 二、Hql思路、函數

原创 Spark_RDD

前文:            RDD算子 一、基本操作(懶算子) 啓動:sh spark-shell --master=local 1、不同輸入集合 2、創建、分區 3、讀取文件 4、取值排序 5、Transformation(核

原创 讀取配置及文件路徑

前文:               一、讀取配置文件方式 1.讀取項目內部配置文件 val in: InputStream = this.getClass.getClassLoader.getResourceAsStream("

原创 基於HDP3.1的Kafka對Kerberos的SASL認證

前文:            公司使用Ambari2.7平臺,需要自己搭測試環境,所以自己研究後,分享給大家。 目錄 一、Ambari平臺上修改Kafka配置 1、修改協議 2、修改機制 二、創建Kerberos授權用戶 0、登錄管理者

原创 採集方式彙集(sqoop、spark、flume、logstash、filebeat)

前文:            數據倉庫中ods層一般使用外部表,一般默認採用 \001 作爲分隔符,但textfile格式在遇到文本數據就會有分隔符及換行符問題,所以採用parquet作爲存儲格式,但也會引進數據類型轉換的問題。    

原创 Kettle 的簡單介紹

前文:              作爲一款主流ELT工具,比同類數據抽取工具DataX、Sqoop更加強大,可以通過圖形化界面直接對接各個數據源,進行任何數據格式的數據轉換及處理。 一、核心:作業及轉換 轉換(步驟流):數據輸入——處理

原创 區分Spark標準開發模板的driver端和excutor端

前文:              理解driver端和excutor端的代碼塊劃分有利於優化代碼。 import com.cmsz.utils.MySQLUtils import org.apache.kafka.clients.con