台部落CesarChoy

原创 CDH 6.1安裝過程

目錄一、JDK 二、配置鏡像文件三、上傳數據庫上傳 mysql-5.6.39-linux-glibc2.12-x86_64.tar 到 /usr/local/ 四、安裝Mysql 五、安裝所有節點：yum clean allyum m

2020-06-16 14:02:37

原创基於監聽hdfs文件實現Sparkstreaming優雅關閉

前提： Yarn的Kill和發送信號，Oozie，不是優雅關閉，CDH的關閉是優雅關閉，現在打算棄用CDH，所以基於代碼實現監聽外部文件系統實現優雅關閉。一、 1.實現代碼 val hdfsStopPat

2020-06-16 14:02:27

原创 Spark的基本概念

前文：一、Spark概念 1、Spark概念 2、對比MapReduce的計算：運算速度快上100倍二、結構及資源調度 1、Spark集羣的結構 2、資源調度流程備註： 3、提交Job執行流程

2020-06-14 08:56:12

原创 HiveSql基本操作+函數（字符串、時間、分析）

前文： Hive把結構化數據轉換成表進行sql操作，底層爲MapReduce操作，掌握好Hql語句，將大大提升我們的數據處理能力。一、基本操作 1、庫 2、表 3、導入數據 4、導出數據 5、外部表 6、分

2020-06-14 08:56:12

原创大量數據的排序

前文：主要爲一些數據排序的思路。一、Top k問題 1、最大的1000個數字 2、某日訪問次數最多的那個 IP

2020-06-14 08:56:12

原创貼一個基於HDP3.1版本的大數據pom.xml

前文：才疏學淺，這個依賴耗費了一段，中間一直缺包，仔細排查多個主流maven倉庫，確實發現maven倉庫只有主流的依賴包，還有不少依賴包是查詢不到的。解決方法：在pom.xml中添加查詢到的依賴所在的倉庫即

2020-06-14 08:56:12

原创 Hadoop中Yarn的引入及MapReduce

前文： MapReduce作爲分佈式計算框架，用於計算海量數據。一、Yarn的概念目的：將執行MR任務中資源管理和作業調度分離。 1、Yarn 2、Yarn的架構節點 3、Yarn執行MR 二、不同版本MR執

2020-06-14 08:56:12

原创 Shell腳本的使用（積累ing）

前文： Shell腳本可提高工作執行效率，本質上爲一堆命令的集合。一、字符串處理 #部分代碼案例展示 log_index=$(cat $log_txt) #最新記錄 #echo $log_index

2020-06-14 08:56:12

原创 HiveSql優化及思路、函數

前文：一、HiveSql優化二、Hql思路、函數

2020-06-14 08:56:12

原创 Spark_RDD

前文： RDD算子一、基本操作(懶算子) 啓動：sh spark-shell --master=local 1、不同輸入集合 2、創建、分區 3、讀取文件 4、取值排序 5、Transformation（核

2020-06-14 08:56:02

原创讀取配置及文件路徑

前文：一、讀取配置文件方式 1.讀取項目內部配置文件 val in: InputStream = this.getClass.getClassLoader.getResourceAsStream("

2020-06-14 08:56:02

原创基於HDP3.1的Kafka對Kerberos的SASL認證

前文：公司使用Ambari2.7平臺，需要自己搭測試環境，所以自己研究後，分享給大家。目錄一、Ambari平臺上修改Kafka配置 1、修改協議 2、修改機制二、創建Kerberos授權用戶 0、登錄管理者

2020-06-14 08:56:02

6

原创 CDH 6.1安裝過程

原创基於監聽hdfs文件實現Sparkstreaming優雅關閉

原创 Spark的基本概念

原创 HiveSql基本操作+函數（字符串、時間、分析）

原创大量數據的排序

原创貼一個基於HDP3.1版本的大數據pom.xml

原创 Hadoop中Yarn的引入及MapReduce

原创 Shell腳本的使用（積累ing）

原创 HiveSql優化及思路、函數

原创 Spark_RDD

原创讀取配置及文件路徑

原创基於HDP3.1的Kafka對Kerberos的SASL認證

原创採集方式彙集(sqoop、spark、flume、logstash、filebeat)

原创 Kettle 的簡單介紹

原创區分Spark標準開發模板的driver端和excutor端