分佈式數據集RDD經典集錦


RDD是spark的核心組成,想要理解spark,就必須瞭解RDD。那麼RDD具有什麼樣的特性,怎麼來創建和應用呢?

一、  RDD(Resilient Distributed Dataset)

RDD是一個彈性分佈式數據集,這裏我們解釋一下它具體的含義:

(1)彈性-如果在內存中的數據丟失,可以重建

(2)分佈式-在整個集羣中處理

(3)數據集-初始的數據可以由程序創建,也可以從文件中讀取

RDD是spark數據的基礎單位, 大多數程序由對RDDS的執行操作組成

二、  創建RDD

創建RDD的三種方法 :(1)從文件或文件集; (2)從內存中的數據 ;(3)從另一個RDD

示例:基於文件的RDD創建


三、  RDD操作

兩種類型:(1)Actions-返回值;(2)Transformations-基於當前的RDD定義新的RDD


四、  RDD操作: Actions

常見操作

(1)count()-返回元素的數量

(2)take(n)-返回包含前n個元素的數組

(3)collect()-返回所有元素的數組

(4)save As Text File(file)-保存爲文本文件


五、  RDD操作: Transformations

Transformations基於存在的RDD創建新的RDD。RDDs是不可變的,它本身的數據不能修改,根據需要按順序轉換來修改數據 。

常見操作:

(1)map(function)-對基礎RDD的每個記錄執行函數

(2)filter(function)-根據boolean函數選出或者排除基礎RDD的數據作爲新的RDD

示例:map和filter Transformations


以上是對於RDD進行的部分分享,後續還會繼續挖掘RDD其它方面的知識。這裏推薦大家一個微信公衆號“大數據cn”,裏面有很多大數據相關的知識介紹,可以去關注一下。

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章