解析RDD在Spark中的地位

1.Spark的核心概念是RDD (resilient distributed dataset),指的是一個 只讀的,可分區的分佈式數據集,這個數據集的全部或部分可以緩存在內存中,在多次計算間重用。

2.RDD在抽象上來說是一種元素集合,包含了數據。它是被分區的,分爲多個分區,每個分區分佈在集羣中的不同Worker節點上,從而讓RDD中的數據可以被並行操作。(分佈式數據集)

3.RDD通常通過Hadoop上的文件,即HDFS文件或者Hive表,來進行創建;有時也可以通過RDD的本地創建轉換而來。

4.傳統的MapReduce雖然具有自動容錯、平衡負載和可拓展性的優點,但是其最大缺點是採用非循環式的數據流模型,使得在迭代計算式要進行大量的磁盤IO操作。RDD正是解決這一缺點的抽象方法。RDD最重要的特性就是,提供了容錯性,可以自動從節點失敗中恢復過來。即如果某個節點上的RDD partition,因爲節點故障,導致數據丟了,那麼RDD會自動通過自己的數據來源重新計算該partition。這一切對使用者是透明的。RDD的lineage特性。

5.RDD的數據默認情況下存放在內存中的,但是在內存資源不足時,Spark會自動將RDD數據寫入磁盤。(彈性)

RDD在Spark中的地位和作用

1)爲什麼會有Spark?因爲傳統的並行計算模型無法有效的解決迭代計算(iterative)和交互式計算(interactive);而Spark的使命便是解決這兩個問題,這也是他存在的價值和理由。

2)Spark如何解決迭代計算?其主要實現思想就是RDD,把所有計算的數據保存在分佈式的內存中。迭代計算通常情況下都是對同一個數據集做反覆的迭代計算,數據在內存中將大大提升IO操作。這也是Spark涉及的核心:內存計算。

3)Spark如何實現交互式計算?因爲Spark是用scala語言實現的,Spark和scala能夠緊密的集成,所以Spark可以完美的運用scala的解釋器,使得其中的scala可以向操作本地集合對象一樣輕鬆操作分佈式數據集。

4)Spark和RDD的關係?可以理解爲:RDD是一種具有容錯性基於內存的集羣計算抽象方法,Spark則是這個抽象方法的實現。

結語

感謝您的觀看,如有不足之處,歡迎批評指正。

如果有對大數據感興趣的小夥伴或者是從事大數據的老司機可以加羣:

658558542    

歡迎大家交流分享,學習交流,共同進步。(裏面還有大量的免費資料,幫助大家在成爲大數據工程師,乃至架構師的路上披荊斬棘!)

最後祝福所有遇到瓶頸的大數據程序員們突破自己,祝福大家在往後的工作與面試中一切順利。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章