原创 CDH 6.1安裝過程
目錄 一、JDK 二、配置鏡像文件 三、上傳數據庫上傳 mysql-5.6.39-linux-glibc2.12-x86_64.tar 到 /usr/local/ 四、安裝Mysql 五、安裝所有節點:yum clean allyum m
原创 基於監聽hdfs文件實現Sparkstreaming優雅關閉
前提: Yarn的Kill和發送信號,Oozie,不是優雅關閉,CDH的關閉是優雅關閉,現在打算棄用CDH,所以基於代碼實現監聽外部文件系統實現優雅關閉。 一、 1.實現代碼 val hdfsStopPat
原创 Spark的基本概念
前文: 一、Spark概念 1、Spark概念 2、對比MapReduce的計算:運算速度快上100倍 二、結構及資源調度 1、Spark集羣的結構 2、資源調度流程 備註: 3、提交Job執行流程
原创 HiveSql基本操作+函數(字符串、時間、分析)
前文: Hive把結構化數據轉換成表進行sql操作,底層爲MapReduce操作,掌握好Hql語句,將大大提升我們的數據處理能力。 一、基本操作 1、庫 2、表 3、導入數據 4、導出數據 5、外部表 6、分
原创 大量數據的排序
前文: 主要爲一些數據排序的思路。 一、Top k問題 1、最大的1000個數字 2、某日訪問次數最多的那個 IP
原创 貼一個基於HDP3.1版本的大數據pom.xml
前文: 才疏學淺,這個依賴耗費了一段,中間一直缺包,仔細排查多個主流maven倉庫,確實發現maven倉庫只有主流的依賴包,還有不少依賴包是查詢不到的。解決方法:在pom.xml中添加查詢到的依賴所在的倉庫即
原创 Hadoop中Yarn的引入及MapReduce
前文: MapReduce作爲分佈式計算框架,用於計算海量數據。 一、Yarn的概念 目的:將執行MR任務中資源管理和作業調度分離。 1、Yarn 2、Yarn的架構節點 3、Yarn執行MR 二、不同版本MR執
原创 Shell腳本的使用(積累ing)
前文: Shell腳本可提高工作執行效率,本質上爲一堆命令的集合。 一、字符串處理 #部分代碼案例展示 log_index=$(cat $log_txt) #最新記錄 #echo $log_index
原创 HiveSql優化及思路、函數
前文: 一、HiveSql優化 二、Hql思路、函數
原创 Spark_RDD
前文: RDD算子 一、基本操作(懶算子) 啓動:sh spark-shell --master=local 1、不同輸入集合 2、創建、分區 3、讀取文件 4、取值排序 5、Transformation(核
原创 讀取配置及文件路徑
前文: 一、讀取配置文件方式 1.讀取項目內部配置文件 val in: InputStream = this.getClass.getClassLoader.getResourceAsStream("
原创 基於HDP3.1的Kafka對Kerberos的SASL認證
前文: 公司使用Ambari2.7平臺,需要自己搭測試環境,所以自己研究後,分享給大家。 目錄 一、Ambari平臺上修改Kafka配置 1、修改協議 2、修改機制 二、創建Kerberos授權用戶 0、登錄管理者
原创 採集方式彙集(sqoop、spark、flume、logstash、filebeat)
前文: 數據倉庫中ods層一般使用外部表,一般默認採用 \001 作爲分隔符,但textfile格式在遇到文本數據就會有分隔符及換行符問題,所以採用parquet作爲存儲格式,但也會引進數據類型轉換的問題。
原创 Kettle 的簡單介紹
前文: 作爲一款主流ELT工具,比同類數據抽取工具DataX、Sqoop更加強大,可以通過圖形化界面直接對接各個數據源,進行任何數據格式的數據轉換及處理。 一、核心:作業及轉換 轉換(步驟流):數據輸入——處理
原创 區分Spark標準開發模板的driver端和excutor端
前文: 理解driver端和excutor端的代碼塊劃分有利於優化代碼。 import com.cmsz.utils.MySQLUtils import org.apache.kafka.clients.con