台部落Gru杨

目錄緩存緩存概述cache()和persist()區別CheckPoint 緩存緩存概述如果在應用程序中多次使用同一個 RDD，可以將該 RDD 緩存在計算節點的內存中，該 RDD 只有在第一次計算的時候會根據血緣關係得到分區

2020-06-26 21:58:45

共享變量共享變量的概述廣播變量廣播變量概述及底層分析廣播變量的使用廣播變量應用場景舉例累加器累加器概述累加器的使用系統累加器自定義累加器共享變量的概述 Spark 一個非常重要的特性就是共享變量。默認情況下，如果在一個算子的函

2020-06-26 21:58:45

目錄Spark版本Spark編譯 Spark版本學習用2.4.2 大版本 APIs change 次版本 APIs/features 小版本（核心的東西沒有變，只是修復了一些bug）所以小版本要選大的小版本

2020-06-26 21:58:45

目錄Spark運行架構：各部分介紹Spark 運行注意點 Spark運行架構： Spark運行架構包括集羣資源管理器（Cluster Manager）、運行作業任務的工作節點（Worker Node）、每個應用的任務控制節點（Dr

2020-06-26 21:58:45

轉載自：https://blog.csdn.net/qq_32641659/article/details/89435726 目錄需求Hive SQL的統計分析需求已知用戶的月度點擊次數信息，如下圖，第一列爲用戶名稱，第二列爲

2020-06-26 21:58:45

Spark與MapReduce的區別MapReduce的缺陷操作複雜計算效率低不適合迭代處理不適合實時流式處理，只能離線處理很多框架都各自爲戰，浪費了很多資源，開發也慢，運維也不方便Spark的特點計算速度快易於使用通用性Runs

2020-05-30 18:30:54

RDD爲什麼需要學習RDDRDD概述RDD的定義RDD的五大特點：五大特點在源碼中的體現RDD的創建Parallelized CollectionsExternal Datasets一些注意事項爲什麼需要學習RDD 在工作當中，

2020-05-30 18:30:54

IDEA快捷鍵自帶模板本人是使用IDEA 2018.3.x，都是手工驗證過的：快捷鍵 1 執行(run) alt+F10 2 提示補全 ctrl+alt+空格 (Class Name Completion) 3

2020-05-30 18:30:54

目錄HiveHive DDLHive的數據庫Hive表Hive表的操作內部表和外部表Hive DML加載數據LOADINSERT 從查詢中將數據插入Hive表中INSERT 插入值到表中INSERT 從查詢中將Hive數據寫入HD

2020-05-30 18:30:54

curl ipinfo.io

2019-07-31 00:12:48

Hadoop的默認的日誌是在$HADOOP_HOME的log目錄下，分爲.log和.out文件兩種我們只需要查看.log文件通常.log文件的格式爲： hadoop-hadoop-datanode-hadoop002.log

2019-07-31 00:12:37

map與mapPartitions map詳解： Return a new RDD by applying a function to all elements of this RDD 對RDD中的每一個元素都執行一個functi

2019-07-18 22:34:39

RDD依賴關係Lineage窄依賴與寬依賴窄依賴寬依賴寬依賴與窄依賴在應用上的區別DAG任務劃分 RDDs 通過操作算子進行轉換，轉換得到的新 RDD 包含了從其他 RDDs 衍生所必需的信息，RDDs 之間維護着這種血緣關係，也

2019-07-16 22:05:29

目錄概述cache()和persist()區別概述如果在應用程序中多次使用同一個 RDD，可以將該 RDD 緩存起來，該 RDD 只有在第一次計算的時候會根據血緣關係得到分區的數據，在後續其他地方用到該 RDD 的時候，會直接

2019-07-16 22:05:29

Spark on YARNYARNSpark on YARN執行流程MR 與 Spark作業對比Cluster ManageSpark在YARN模式下僅僅是一個客戶端Deploy Mode實例 YARN Yarn 是一個操作系統級

2019-07-16 22:05:29