目錄
1.Spark基本工作原理
1.Client進行Spark程序編寫後提交到集羣上運行
2.先從 Hadoop 上獲取相應數據形成 RDD
3.而後對RDD按照需要進行計算或迭代計算
2.Spark RDD
1.抽象的分佈式HDFS文件的數據集(Resillient Distributed Dataset)
2.彈性特點:
partition中10w
當內存不夠時,自動的將多的數據放在磁盤中
3.數據通常從 HDFS 和 Hive 表
4. 假如某個節點直接損壞
依據數據元,找到數據的上一個節點,再次進行計算後,自動恢復數據節點的數據
3.Spark 核心編程流程
1.創建 RDD
2.使用算子進行數據處理
3.獲取數據後在進行迭代
4.最後得到結果後進行存儲