原创 大數據組件-sparkTransformations算子,Action算子,速查表

速查表 鍵值對數據類型支持算子 類別 算子 聚合操作 reduceByKey;foldByKey;combineByKey 分組操作 cogroup,groupByKey 連接操作 join;leftOu

原创 大數據項目開發-TOP統計dongsi地區PM值最高的幾個月份

目錄標題數據結構概覽:流程梳理:代碼實現 數據結構概覽: 流程梳理: 1.讀取文件 2.抽取需要的列 3.以年月爲基礎,進行reduceByKey統計dongsi地區的PM 4.排序 5.獲取結果 代碼實現 package cn

原创 大數據項目 - 對網頁後臺日誌中的日誌數據做統計,統計獨立ip數量,Top10

目錄標題日誌的數據結構概覽:實現邏輯梳理:代碼實現: 日誌的數據結構概覽: 實現邏輯梳理: 取出IP,生成一個只有IP的數據集 簡單清洗 聚合:統計ip出現次數 按照ip出現次數排序,取出前十 代碼實現: 創建Acesslo

原创 大數據組件-Spark簡介,Spark集羣搭建,高可用配置,spark並行計算(RDD)的五個特性,sparkshell編寫代碼,IDEA編寫代碼本地運行和集羣運行,RDD編程模型

統一配置環境: zk:3.4.9 jdk:1.8 IDEA:2019.1.x64 目錄標題Spark概述集羣搭建(1)下載spark安裝包(2)上傳並解壓(3)配置spark-env.sh(5)修改slaves1.使用場景環境2.

原创 大數據組件-saprkRDD分區和Shuffle,緩存,Checkpoint

目錄標題RDD分區以及Shuffle操作1.查看分區的手段(1)使用partitions查看(2)使用webUI頁面查看2.通過算子指定分區數3.Spark 中的 Shuffle 操作的特點RDD的緩存1.RDD緩存作用2.RDD

原创 大數據基礎-大數據常用maven依賴配置查詢

properites 參數的配置 <properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.0</spark.ver

原创 大數據基礎-scala簡介,安裝配置,基礎語法,類和對象(單例對象,伴生對象,isinstance,asInstance,getClass,classOf,抽象類,匿名內部類,特質)

環境統一: jdk:1.8 安裝scala SDK(針對scala語言的編譯器):2.11.8 安裝IDEA插件:2019.1.7 目錄標題scala簡介scala安裝配置scala基礎語法格式1.開啓scala解釋器,並執行he

原创 大數據組件-Apache Flume簡介,架構,安裝部署,Flume全量採集目錄/增量文件到hdfs,負載均衡,容錯,靜態攔截器

版本統一: apache-fluem:1.8.0 jkd:1.8 hadoop:2.7.5 zk:3.4.9 flume用戶指導手冊 目錄標題Flume簡介,架構(1)概述(2)核心組件(3)Flume採集系統結構(4)運行機制(

原创 java繼承-switch-case用法

switch-case 一般的用它來做值匹配的。 switch(表達式){ case 值1: 表達式的值和 值1匹配上了,需要執行的代碼; break; case 值2:

原创 大數據基礎-安裝maven依賴倉庫教程,idea配置maven插件,pom文件內容構成

首先明確一下我所使用的環境版本: **idea:2019.1 x64 maven目錄標題1.安裝本地Maven2.瞭解下Maven的倉庫3.修改setting.xml配置文件4.maven目錄結構5.dea配置maven插件6.p

原创 大數據疑難雜症-安裝hive後啓動失敗問題

目錄標題1.報錯截圖2.原因3.解決方案 1.報錯截圖 2.原因 沒有hive的元數據表。 3.解決方案 1)在配置hive-site.xml的jdbc的url時,在連接中加上createDatabaseIfNotExist=t

原创 大數據組件-Yarn資源調度

Yarn資源調度 yarn作用就是爲了調度資源,管理任務 其調度分爲兩個層級來說: 一級調度管理: 計算資源管理(CPU,內存,網絡IO,磁盤) 二級調度管理: 任務內部的計算模型管理 (AppMaster的任務精細化管理)

原创 大數據基礎-CDH平臺搭建,項目開發的基石

目錄統一版本(1)linux統一使用centos(3)jbk版本集羣規劃三臺機器linux集羣搭建1.三臺機器IP設置2.三臺機器關閉防火牆3.三臺機器關閉selinux4.三臺機器更改主機名5.三臺機器更改主機名與IP地址映射6

原创 大數據基礎-安裝Scala

目錄scala下載自動安裝scala插件下載scala插件,手動導入scala插件導入剛纔下載的scala插件: scala下載 scala下載 打開scala的官網,拉動滾動條到頁面底部下載如下圖對應的安裝包,直接安裝即可,安裝

原创 大數據組件-Hadoop安裝,HDFS命令行操作,HDFS高級使用命令,HDFS元數據管理,HDFS API接口操作

目錄hadoop安裝1.hadoop集羣規劃2.上傳apache hadoop包並解壓3.修改配置文件(1)配置core-sit.xml(2)配置hdfs-sit.xml(3)配置hadoop-env.sh(4)配置mapred-