原创 Spark_4 SparkCore緩存和CheckPoint

目錄緩存緩存概述cache()和persist()區別CheckPoint 緩存 緩存概述 如果在應用程序中多次使用同一個 RDD,可以將該 RDD 緩存在計算節點的內存中,該 RDD 只有在第一次計算的時候會根據血緣關係得到分區

原创 Spark_7 SparkCore共享變量

共享變量共享變量的概述廣播變量廣播變量概述及底層分析廣播變量的使用廣播變量應用場景舉例累加器累加器概述累加器的使用系統累加器自定義累加器 共享變量的概述 Spark 一個非常重要的特性就是共享變量。 默認情況下,如果在一個算子的函

原创 Spark_0 Spark版本及編譯

目錄Spark版本Spark編譯 Spark版本 學習用2.4.2 大版本 APIs change 次版本 APIs/features 小版本 (核心的東西沒有變,只是修復了一些bug)所以小版本要選大的 小版本

原创 Spark_3 Spark Core運行架構

目錄Spark運行架構:各部分介紹Spark 運行注意點 Spark運行架構: Spark運行架構包括集羣資源管理器(Cluster Manager)、運行作業任務的工作節點(Worker Node)、每個應用的任務控制節點(Dr

原创 Hive_04 使用sql進行增量結合歷史數據分析

轉載自:https://blog.csdn.net/qq_32641659/article/details/89435726 目錄需求Hive SQL的統計分析 需求 已知用戶的月度點擊次數信息,如下圖,第一列爲用戶名稱,第二列爲

原创 Spark_1 Spark與MapReduce對比

Spark與MapReduce的區別MapReduce的缺陷操作複雜計算效率低不適合迭代處理不適合實時流式處理,只能離線處理很多框架都各自爲戰,浪費了很多資源,開發也慢,運維也不方便Spark的特點計算速度快易於使用通用性Runs

原创 Spark_2 RDD

RDD爲什麼需要學習RDDRDD概述RDD的定義RDD的五大特點:五大特點在源碼中的體現RDD的創建Parallelized CollectionsExternal Datasets一些注意事項 爲什麼需要學習RDD 在工作當中,

原创 IDEA快捷鍵及模板

IDEA快捷鍵自帶模板 本人是使用IDEA 2018.3.x,都是手工驗證過的: 快捷鍵 1 執行(run) alt+F10 2 提示補全 ctrl+alt+空格 (Class Name Completion) 3

原创 Hive_01 Hive基礎

目錄HiveHive DDLHive的數據庫Hive表Hive表的操作內部表和外部表Hive DML加載數據LOADINSERT 從查詢中將數據插入Hive表中INSERT 插入值到表中INSERT 從查詢中將Hive數據寫入HD

原创 查看雲主機(ECS)的IP

curl ipinfo.io

原创 查看Hadoop日誌

Hadoop的默認的日誌是在$HADOOP_HOME的log目錄下,分爲.log和.out文件兩種 我們只需要查看.log文件 通常.log文件的格式爲: hadoop-hadoop-datanode-hadoop002.log

原创 Spark_8 Spark常用算子對比

map與mapPartitions map詳解: Return a new RDD by applying a function to all elements of this RDD 對RDD中的每一個元素都執行一個functi

原创 Spark_5 RDD依賴關係

RDD依賴關係Lineage窄依賴與寬依賴窄依賴寬依賴寬依賴與窄依賴在應用上的區別DAG任務劃分 RDDs 通過操作算子進行轉換,轉換得到的新 RDD 包含了從其他 RDDs 衍生所必需的信息,RDDs 之間維護着這種血緣關係,也

原创 Spark_4 SparkCore緩存

目錄概述cache()和persist()區別 概述 如果在應用程序中多次使用同一個 RDD,可以將該 RDD 緩存起來,該 RDD 只有在第一次計算的時候會根據血緣關係得到分區的數據,在後續其他地方用到該 RDD 的時候,會直接

原创 Spark_6 Spark on YARN

Spark on YARNYARNSpark on YARN執行流程MR 與 Spark作業對比Cluster ManageSpark在YARN模式下僅僅是一個客戶端Deploy Mode實例 YARN Yarn 是一個操作系統級