spark基礎-rdd特性

原創

2019-09-22 14:33

RDD特性：

1.RDD是spark提供的核心抽象，全稱：Resillient Distributed Dataset,即彈性分佈式數據集。

2.RDD在抽象上來說是一種元素集合，包含了數據。它是被分區的，氛圍多個分區，每個分區分佈在集羣中的不同節點上，從而讓RDD中的數據可以並行操作（分佈式數據集）

3.RDD通常通過Hadoop上的文件來創建。有時也可以通過應用程序中的集合賴牀見。

4.RDD最重要的特性就是提供了容錯性，可以從節點失敗中恢復過來。即：如果某個節點的RDD partition因爲節點故障導致數據丟失，那麼RDD會自動通過自己的數據來源重新計算該partitin。

5.RDD的每個partition在spark節點上，默認都是放在內存中，但是如果內存中放不下這麼多數據，多出來的數據，就會把partition中的部分數據寫在磁盤上，進而保存。對於用戶來說，並不知道RDD內存數據存儲在哪裏。RDD的這種自動進行內存和詞牌之間的切換機制，就是RDD的彈性特點所在。

一個RDD在邏輯上抽象地代表了一個HDFS文件。但是實際上是唄分區的，氛圍多個分區，多個分區散落在spark集羣中，不同的節點上。

Spark核心編程是什麼：

首先，定義初始的RDD，就是說，要定義訂一個數據從哪裏來。

第二：定義對RDD的計算操作，這個在spark裏稱爲算子

第三：就是循環往復的過程第一次計算完成後，數據就會到了新的一批節點上，變成了新的RDD，然後再次反覆，針對新的RDD定義算子操作。

第四：獲得最終的數據，將數據保存起來。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

[Spark] 學習筆記 (一)

1. 分區爲了讓多個執行器並行地工作，Spark 將數據分解成多個數據塊，每個數據塊叫做一個分區。分區是位於集羣中的一臺物理機上的多行數據的集合，DataFrame 的分區也說明了在執行過程中，數據在集羣中的物理分佈。如果只

風の唄を聴け

2020-07-08 04:26:33

RDD應用實例之詞頻分析

一、數據 It hurts to love someone and not be loved in return. But what is more painful is to love someone and never fin

2020-07-06 16:08:42

Spark：RDD checkpoint容錯機制

經過上一節的學習，我們瞭解到合理地將RDD持久化/緩存，不僅直接避免了RDD的重複計算導致的資源浪費和佔用還提升了RDD的容錯性，而且間接提升了分析任務的完成效率，那麼爲什麼又會需要基於checkpoint的容錯機制，在什麼情況下需要

花和尚也有春天

2020-07-03 10:05:00

15.RDD 創建

第15課：RDD創建內幕 1. RDD的創建方式 Spark應用程序運行過程中，第一個RDD代表了Spark應用程序輸入數據的來源，之後通過Trasformation來對RDD進行各種算子的轉換，來實現具體的算法 Spark

听风的蜗牛

2020-06-29 19:28:53

第1章 Spark RDD概述

第1章 RDD概述1.1 什麼是RDD1.2 RDD的屬性1.3 RDD特點1.3.1 分區1.3.2 只讀1.3.3 依賴1.3.4 緩存1.3.5 CheckPoint 1.1 什麼是RDD RDD（Resilient Dis

再难也要坚持

2020-06-21 15:34:53

【翻譯】RDD：基於內存的集羣計算容錯抽象

摘要本文提出了分佈式內存抽象的概念——彈性分佈式數據集（RDD，Resilient Distributed Datasets），它具備像MapReduce等數據流模型的容錯特性，並且允許開發人員在大型集羣上執行基於內存的計算。現有的數據

2020-06-21 04:16:58

spark下rdd和dataframe以及sqlcontext之間相互轉換

直接看代碼 import org.apache.spark.sql.{DataFrame, SQLContext} import org.apache.spark.{SparkConf, SparkContext} /** * wo

2020-06-16 10:30:37

spark：sparksql：dataset、dataframe、rdd互轉關係

花和尚也有春天

2020-06-16 06:48:45

Spark RDD 數據到 MySQL

數據 www.xzdream.cn 1 2 江西 www.xzdream.cn 3 4 廣東 www.xzdream.cn 1 2 西藏 www.xzdream.cn 3

2020-06-16 01:46:21

RDD、DataFrame和Dataset 怎麼選擇纔好？

最令開發者們高興的事莫過於有一組API，可以大大提高開發者們的工作效率，容易使用、非常直觀並且富有表現力。Apache Spark廣受開發者們歡迎的一個重要原因也在於它那些非常容易使用的API，可以方便地通過多種語言，如Scala、Jav

2020-06-15 05:59:37

BigData————RDD編程

一、定義RDD： 1.RDD 是一個分佈式的，彈性的數據集，是spark應用中最基本的統一的數據格式單位 RDD分區就是一段連續的數據片不同的數據源，要統一格式，而這個統一的格式就是RDD。 spark的計算就是

2020-06-14 18:19:21

scala中rdd與dataframe的各種創建方式

創建RDD 1，從字符串創建rdd sc.parallelize(xxx) 如：val testrdd=sc.parallelize(Seq((1,Array("1.0"),3),(2,Array("2.0"),6),(3,Array("

2020-06-13 23:50:45

spark中dataframe，dataset，sparksql中的各種用法

2020-06-01 21:35:16

4.RDD常見操作

2020-06-01 09:08:17

Spark操作——創建操作

2020-05-17 02:58:40

24小時熱門文章

最新文章

最新評論文章