spark基本工作原理

目錄

 

1.Spark基本工作原理

2.Spark RDD

3.Spark 核心編程流程


1.Spark基本工作原理

1.Client進行Spark程序編寫後提交到集羣上運行
2.先從 Hadoop 上獲取相應數據形成 RDD
3.而後對RDD按照需要進行計算或迭代計算

 

2.Spark RDD

1.抽象的分佈式HDFS文件的數據集(Resillient Distributed Dataset)
2.彈性特點:
  partition中10w
  當內存不夠時,自動的將多的數據放在磁盤中
3.數據通常從 HDFS 和  Hive 表 
4.  假如某個節點直接損壞
    依據數據元,找到數據的上一個節點,再次進行計算後,自動恢復數據節點的數據  

 

3.Spark 核心編程流程

1.創建 RDD
2.使用算子進行數據處理
3.獲取數據後在進行迭代
4.最後得到結果後進行存儲

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章