台部落屌丝皇帝

速查表鍵值對數據類型支持算子類別算子聚合操作 reduceByKey;foldByKey;combineByKey 分組操作 cogroup,groupByKey 連接操作 join;leftOu

2020-05-23 21:31:20

目錄標題數據結構概覽:流程梳理:代碼實現數據結構概覽: 流程梳理: 1.讀取文件 2.抽取需要的列 3.以年月爲基礎,進行reduceByKey統計dongsi地區的PM 4.排序 5.獲取結果代碼實現 package cn

2020-05-23 21:31:20

目錄標題日誌的數據結構概覽:實現邏輯梳理:代碼實現: 日誌的數據結構概覽: 實現邏輯梳理: 取出IP,生成一個只有IP的數據集簡單清洗聚合:統計ip出現次數按照ip出現次數排序,取出前十代碼實現: 創建Acesslo

2020-05-23 21:31:20

統一配置環境: zk:3.4.9 jdk:1.8 IDEA:2019.1.x64 目錄標題Spark概述集羣搭建(1)下載spark安裝包(2)上傳並解壓(3)配置spark-env.sh(5)修改slaves1.使用場景環境2.

2020-05-23 21:31:20

目錄標題RDD分區以及Shuffle操作1.查看分區的手段(1)使用partitions查看(2)使用webUI頁面查看2.通過算子指定分區數3.Spark 中的 Shuffle 操作的特點RDD的緩存1.RDD緩存作用2.RDD

2020-05-23 21:31:20

properites 參數的配置 <properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.0</spark.ver

2020-05-23 21:31:20

環境統一: jdk:1.8 安裝scala SDK(針對scala語言的編譯器):2.11.8 安裝IDEA插件:2019.1.7 目錄標題scala簡介scala安裝配置scala基礎語法格式1.開啓scala解釋器,並執行he

2020-05-18 19:55:42

版本統一: apache-fluem:1.8.0 jkd:1.8 hadoop：2.7.5 zk:3.4.9 flume用戶指導手冊目錄標題Flume簡介,架構(1)概述(2)核心組件(3)Flume採集系統結構(4)運行機制(

2020-05-18 19:55:42

switch-case 一般的用它來做值匹配的。 switch(表達式){ case 值1: 表達式的值和值1匹配上了，需要執行的代碼; break; case 值2:

2020-05-12 02:06:19

首先明確一下我所使用的環境版本: **idea:2019.1 x64 maven目錄標題1.安裝本地Maven2.瞭解下Maven的倉庫3.修改setting.xml配置文件4.maven目錄結構5.dea配置maven插件6.p

2020-05-10 14:19:13

目錄標題1.報錯截圖2.原因3.解決方案 1.報錯截圖 2.原因沒有hive的元數據表。 3.解決方案 1）在配置hive-site.xml的jdbc的url時，在連接中加上createDatabaseIfNotExist=t

2020-05-09 03:03:35

Yarn資源調度 yarn作用就是爲了調度資源，管理任務其調度分爲兩個層級來說：一級調度管理：計算資源管理(CPU,內存，網絡IO，磁盤) 二級調度管理：任務內部的計算模型管理 (AppMaster的任務精細化管理)

2020-05-07 12:55:34

目錄統一版本(1)linux統一使用centos(3)jbk版本集羣規劃三臺機器linux集羣搭建1.三臺機器IP設置2.三臺機器關閉防火牆3.三臺機器關閉selinux4.三臺機器更改主機名5.三臺機器更改主機名與IP地址映射6

2020-04-30 00:24:35

目錄scala下載自動安裝scala插件下載scala插件，手動導入scala插件導入剛纔下載的scala插件: scala下載 scala下載打開scala的官網，拉動滾動條到頁面底部下載如下圖對應的安裝包,直接安裝即可,安裝

2020-04-30 00:24:35

目錄hadoop安裝1.hadoop集羣規劃2.上傳apache hadoop包並解壓3.修改配置文件(1)配置core-sit.xml(2)配置hdfs-sit.xml(3)配置hadoop-env.sh(4)配置mapred-

2020-04-30 00:24:35